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前 排 提 醒 : 工具 归 工 具 ， 研 究 归 研究 ，Al 的 研究 唯 有 打 好 基础 ， 多 看 论文 ， 多 做 实验 ， 方 能 
有 所 增益 。 


Google 深度 学 习 笔 记 
Github 工 程 地 址 : https://github.com/ahangchen/GDLnotes 
欢迎 star， 有 问题 可 以 到 Issue 区 讨论 
官方 教程 地 址 
视频 /字幕 下 载 
教程 已 重 构 兼容 TensorFlow 1.2 
框架 : TensorFlow (安装 躁 坑 日 志 ) 
谷歌 家 的 深度 学 习 框 架 ， 有 Python,C++ 的 API 
工具 : Pycharm 
笔记 列表 
e Lesson 1 Machine Learning to Deep Learning 


o Logistic Classification 
o Logistic Classification 3: & 
o Stochastic Optimization 


e Lesson 2 Deep Neural Network 


o Limit of Linear Model 

o Neural network 

o 神经 网 络 实践 

o 优化 神经 网 络 : Deep Network 
o 深度 神经 网 络 实践 


e Lesson 3 Convolutional Networks 


o 卷 积 神经 网 络 实践 
e Lessson 4 Deep Models for Text and Sequence 


o Challenge 


o Model 
o Sequence 
o 循环 神经 网 络 实践 


附录 : 


e NumPy Eie (4X. E) 
e matplotlib ic (4424) 
e sklearn Eie ( 待 完善 ) 
e TensorFlow 笔 记 


最 近 在 整理 西瓜 书 中 的 一 些 概念 ， 有 兴趣 的 同学 可 以 参与 
觉得 我 的 文章 对 您 有 帮助 的 话 ， 就 给 个 star 吧 ~ 
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Machine Learning to Deep Learning 


学 
e 我 们 可 以 在 Personal Computer 上 完成 庞大 的 任务 


` 
NU 


e 深度 学 习 是 一 种 适应 于 各 类 问题 的 万 能 药 
神经 网 络 


e 神经 网 络 出 现 于 80 年 代 ， 但 当时 计算 机 运行 慢 ， 数 据 集 很 小 ， 神 经 网 络 不 适用 
e 现在 神经 网 络 回来 了 ， 因 为 能 够 进行 GPU 计算 ， 可 用 使 用 的 数据 集 也 变 大 


分 类 的 一 些 讨 论 可 以 在 这 个 项 目 里 看 到 


ua >` 


e Machine Learning 4 Æ Classification ! 但 分 类 走 机 器 学 习 的 核心 。 
e 学 会 分 类 也 就 学 会 了 Detect 和 Rank 

o Detect : 从 复杂 场景 中 识别 某 类 物品 

o Rank: 从 各 种 链接 中 找到 与 某 个 关键 词 相关 的 一 类 链接 


e Logistic Classification 
e Logistic Classification 实 践 
e Stochastic Optimization 


general data practices to train models 


觉得 得 我 的 文章 对 您 有 帮助 的 话 ， 就 给 个 star 吧 ~ 


Logistic Classification 


Logistic Classification 


Github 工 程 地 址 : https://github.com/ahangchen/GDL notes 
欢迎 star， 有 问题 可 以 到 |ssue 区 讨论 
官方 教程 地 址 


视频 /字幕 下 载 


About 


simple but important classifier 


e 训练 你 的 第 一 个 端 到 端 模型 

e 下 载 并 预 处 理 图 片 

在 图 像 数 据 上 运行 Logistic classifier 进 行 分 类 
e 相关 的 数学 背景 知识 和 代码 


Detall 


Linear Classifier 


LOGISTIC 
CLASSIFIER 





之 所 以 这 样 建 模 ， 是 因为 线性 公式 是 最 简单 的 数学 模型 ， 仅 此 而 已 。 


e Input: X (e.g. 图 像 中 像素 的 灰 度 值 ) 
e 将 一 个 线性 函数 作用 在 X 上 

o A+ MAAR 

o 输入 一 个 代表 图 片 的 向 量 

o 将 输入 向 量 和 一 个 矩阵 W 相 乘 ，W 表 示 权 重 

o b 代 表 偏 移 (biased) 项 

o 机 器 学 习 便 是 调 M 值 以 达到 最 好 的 预测 效果 
e 输出 :YY 对 输入 应 当 属 于 哪个 类 进行 预测 


o Y 是 一 个 代表 每 个 labe| 可 能 性 的 向 量 

o 好 的 预测 中 ， 正 确 的 label 的 概率 应 当 更 接近 1 

o 往往 得 到 的 Y 一 开始 不 是 概 举 ， 而 是 一 些 具体 值 (scores/logits) ， 所 以 需要 转换 ， 
by : 

Softmax™® /231€ 78 : Wikipedia 


909) * = = x 


Softmax 


o 代码 soft max.py : Softmax S: #4 e Ff] 

o input 的 score 差 异 越 大 (TAARI) > pág 8905 labeli E HAA ^R 
之 差异 越 小 

o Softmax 只 关心 几 个 label 之 间 的 概率 ， 不 关心 具体 值 

o 机 器 学 习 是 一 个 让 预测 成 功 座 升 高 的 事情 ， 因 此 是 一 个 让 Score 之 间 差 异 增 大 的 过 


One hot encoding 


Logistic Classification 


ONE-HOT 
o.3| ENCODING | 1.0 
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正确 预测 结果 应 当 是 只 有 一 个 label 成 立 ， 其 他 label 不 成 立 。 这 种 情况 下 ， 预 测 概率 最 大 
的 则 是 最 可 能 的 结果 。 





Example: take this test 


e one hot encoding 在 label 很 多 的 情况 下 效果 不 好 ， 因 为 output vector 到 处 都 是 0， 很 稀 
Bo Al th ak BK 
o solved by embeddings 
e 好 处 : 可 以 measure 我 们 与 理想 情况 之 间 的 距离 (compare two vectors) 


分 类 器 输出 : [0.7 0.20.1] \<=> 与 label 对 应 的 中 实情 况 : [10 0] 


e Compare two vectors: cross-entropy 


C. Ross - ENTROPY 


5(Y) 
0 .十 N 
0.2 DS 
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called the cross-entropy. 


Logistic Classification 


e D(S, L) !- D(L, S) 


Remember: Label don't log, for label zero 
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MULTINONIAL 
LOGISTIC 
CLASSIFICATION 


了 (S(wx+b) L) 


找到 合适 的 W 和 b， 使 得 S 和 LL 的 距离 口 的 平均 值 ， 在 整个 数据 集 n 中 最 小 。 


最 小 化 cross-entropy 


Logistic Classification 


LOSS = AVERAGE Coss-ENTRDPY 


Bic MATRIX | 


BiG Sum! 
D 的 平均 值 即 是 Training loss * RAe fe 4E E48 A 2 4 A ACE 8] 76. o 


W wk SMALL 


Loss «C 
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weight 2 


两 个 参数 的 误差 导致 一 个 呈 圆 形 的 loss， 所 以 我 们 要 做 的 就 是 找到 尽量 靠近 圆心 的 weight 
机 医学 习 问 题 变 成 了 一 个 数值 优化 


e 解决 方法 之 一 : Gradient descent? R$ 


Logistic Classification 


GRADIENT DESCEN: 时 
wegk! | Loss L 
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图 中 weight 是 二 维 的 ， 但 事实 上 可 能 有 极 乡 的 weight 


Numerical Stability 
量 级 相差 太 多 的 数 运算 会 导致 许多 错误 
Example:num stable.py 


e 你 可 能 以 为 输出 是 1， 但 结果 是 一 个 接近 0.95 的 数 。 
e O ， 结 果 就 很 接近 1 
e 因此 需要 让 前 面 提 到 的 Train loss 有 函数 中 的 数据 不 要 too big or too small 


Normalized Inputs and Initial Wights 


归 一 化 输入 和 初始 参数 


e 理想 目标 
o 均值 为 0 
o 方差 处 处 相等 


MEAN 


VARIANCE , 






e Math Reason 


Easier for the optimizer to find a good solution 


A 





e Example: Images Normalization 


RR yyy 128 
G = (G - 128) 7 128 
B = (B d28) / 128 


e Weight Initialization 找到 好 的 weight 和 bias for the gradient descent to proceed 


A simple, general method 


Logistic Classification 
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e 高 斯 分 布 模型 也 决定 了 初始 输出 (softmax 输 出 ) 的 概率 分 布 


Logistic Classification 


e 高 斯 分 布 的 sigma 越 小 ， 说 明 预 测 越 不 确定 ，sigma 的 取 值 很 主观 
e 我 们 的 工作 即 是 ， 选 一 个 较 小 的 sigma， 让 Sigma 变 小 到 合适 的 值 ， 使 得 预测 更 确定 。 


e 优化 


OPTINIZATION 





调整 W 和 b， 使 得 Train loss 最 小 
扩展 阅读 : 西瓜 书 第 三 章 : 线 性 模型 下 一 节 实 践 


觉得 得 我 的 文章 对 您 有 帮助 的 话 ， 就 给 个 star 吧 和 ~ 


Practical Aspects of Learning 


Github 工 程 地 址 : https://github.com/ahangchen/GDLnotes 
欢迎 star， 有 问题 可 以 到 Issue 区 讨论 

官方 教程 地 址 

视频 /字幕 下 载 


课程 目标 : 学 习 简 单 的 数据 展示 ， 熟 悉 以 后 要 使 用 的 数据 


Install lpython NoteBook 


可 以 参考 这 个 教程 


e 可 以 直接 安装 anaconda， 里 面包 含 了 各 种 库 ， 也 包含 了 ipython ; 

e 推荐 使 用 python2 的 版 本 ， 因 为 很 多 lib 只 支持 python2， 而 且 python3 在 升级 中 ， 支 持 3.4 
还 是 3.5 是 个 很 纠结 的 问题 。 

e 安装 anaconda 后 直接 在 终端 输入 ipython notebook ， 则 会 运行 一 个 ijpython 的 server 端 ， 
同时 在 你 的 浏览 器 中 打开 基于 你 终端 目录 的 一 个 页 面 : 





G ipyr EN [5 Ope x Y D Qui x Y & Drik xO Trer x Y [3x Wo- exa x VO 1n x Y © Dov x 
€ — @ ||! localhost8888/tree/gitrep/tensorflow/tensorflow/examples/udacity Duos 
&» weibo Bia my b AG Bm learn Em 看 看 B entertain Bi scut Bii python. lab ie DL Ba js » b 其 他 书签 


Z Jupyter 



































Files Running Clusters 
select items to perform actions on them. Upload | New w | z 
+ | # | gitrep | tensorflow / tensorflow / examples / udacity 
D.. 
— Æ 1 notmnistipynb Running 
— &@ 2 fullyconnected.ipynb 
| & 3 regularization.ipynb 
局 4 convolutions.ipynb 
四 @ 5 word2vec.ipynb 
局 6 Istm.ipynb 
© [3 Dockerfile 


EJ [Ñ README.md 


。 点 开 ipynb 文 件 即 可 进入 文件 编辑 页 面 
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Deep Learning 


Assignment 1 


The objective of this assignment is to learn about simple data curation practices, and familiarize 
you with some of the data we'll be reusing later. 


This notebook uses the notMNIST dataset to be used with python experiments. This dataset is 
designed to look like the classic MNIST dataset, while looking a little more like real data: it's a 
harder task, and the data is a lot less 'clean' than MNIST. 





In [1]: | # These are all the modules we'll be using later. Make sure you can import them 
# before proceeding further. 
from future Importlprint function 
Import matplotlib.pyplot as plt 
Import numpy as np 
Import os 


Import sys 
Import tarfile 


上 图 即 为 practical 部 分 的 教程 ， 可 以 在 github 下 载 


官方 推荐 使 用 docker 来 进行 这 部 分 教程 ， 但 简单 起 见 我 们 先 用 ipython notebook 
—" 
x x tensorflow 


notMNIST 


修改 的 MNIST， 不 够 干 兆 ， 更 接近 上 中 实数 据 ， 比 MNIST 任 务 更 困难 。 


Todo 


我 将 官方 教程 的 一 个 文件 拆 成 了 多 个 〈 以 文件 持久 化 为 边界 ) ， 然 后 在 schedule.py 里 统一 调 
用 ， 在 各 个 文件 里 可 以 执行 各 个 部 分 的 功能 测试 。 
。 下 载 


o 使 用 urlretrieve 来 获取 数据 集 notMNIST large.tar.gz 和 notMNIST small.tar.gz 
代码 示例 : load data.py 


。 解压 


o 使 用 tarfile 模 块 来 解压 刚刚 下 载 的 压缩 包 
代码 示例 : extract.py 


e 读 图 - 展示 -ÆA 


o 用 ndimage 读 取 一 部 分 图 片 ， 用 pickle 将 读 取 到 的 对 象 (ndarray 对 象 的 list) 序列 化 
存储 到 磁盘 

o 用 matplotlib.plot.imshow 实 现 图 片 显 示 ， 可 以 展示 任意 的 numpy.ndarray， 详 见 
show imgs(dataset) 

o 这 里 展示 的 是 二 值 化 图 片 ， 可 以 设置 显示 为 灰 度 图 

o 将 每 个 class 对 应 的 图 像 数 据 集 序列 化 到 磁盘 

代码 示例 : img pickle.py 


e 整理 数据 集 


o 用 pickle 读 取 pickle 文 件 ， 
o 从 train_folder 中 为 10 个 class 分 别 获 取 10000 个 valid_dataset 和 20000 个 
train dataset ， 
o 其 中 对 每 个 class 读 取 到 的 数据 ， 用 random.shuffle 将 数据 乱 序 化 
o 将 各 个 class 及 其 对 应 的 label 夯 列 化 到 磁盘 ， 分 别 为 训练 器 和 校 验 集 
o 从 test folder 中 为 10 个 class 分 别 获 取 10000 个 test_ dataset, 
o 其 中 对 每 个 class 读 取 到 的 数据 ， 用 random.shuffle 将 数据 乱 序 化 
o 将 各 个 class 及 其 对 应 的 label 序 列 化 到 磁 胡 ， 作 为 测试 集 
代码 示例 merge_prune.py 


e 去 除 重 复数 据 


o load pickle > Ze £idataset 

o 先 将 valid dataset 中 与 test_dataset 重 复 部 分 别 除 ， 再 将 train_dataset 中 与 
valid dataset 重 复 部 分 别 除 

o 每 个 dataset 都 是 一 个 二 维 浮 点 数组 的 list， 也 可 以 理解 为 三 维 浮 点 数组 ， 

o 比较 list 中 的 每 个 图 ， 也 就 是 将 list1 中 每 个 二 维 浮 点 数组 与 list2 中 每 个 二 维 浮 点 数组 比 
Ax 

o 示例 代码 即 为 clean_overlap.py 中 的 imgs_ idx except 

o 我 们 在 拿 list1 中 的 一 个 元 素 跟 list2 中 的 一 个 元 素 比 较 时 ， 总 共 需 要 比较 |len(list1) 
len(list2) image size * image size 次 ， 速 度 极 慢 

o 实际 上 这 是 有 重复 的 计算 的 ， 就 在 于 ，list2 中 的 每 个 元 素 ， 都 被 遍历 了 len(list1) 次 

o 因此 有 这 样 的 一 个 优化 ， 我 们 遍历 每 个 图 ， 用 图 中 的 灰 度 值 ， 仿 照 BKDRHash， 得 
到 每 个 图 都 不 同 的 hash 值 ， 比 较 hash 值 来 比较 图 像 

o 示例 代码 即 为 clean_overlap.py 中 的 imgs_idx_hash_except 


o 这 样 每 个 图 都 只 需要 访问 一 次 ， 计 算 hash 的 时 间 变 为 (lenllist1) + len(list2)) 
image size image size 


o 比较 的 次 数 是 lenllist1)* len(list2) 

o 由 于 我 们 的 数据 中 ，list1 和 list2 的 长 度 是 大 数 ， 所 以 节省 的 时 间 是 相当 可 观 的 

o 在 我 的 机 器 上 ， 上 比较 宛 valid_dataset 和 test_dataset 需 要 的 时 间 分 别 是 25000 秒 
(10000 次 比较 ， 每 次 2-3 秒 ) 和 60 秒 


o 然后 再 将 清理 后 的 数据 序列 化 到 磁盘 即 可 
代码 示例 : clean overlap.py 
e 训练 一 个 logistics 模型 


o train dataset 作 为 输入 ， 用 valid dataset 进 行 验证 (预测 成 功 府 81.9% ) 
o 为 了 重复 利用 训练 后 的 分 类 器 ， 将 其 序列 化 到 磁盘 
代码 示例 : logistic train.py 


e Measure Performance 


o 分 类 器 会 党 试 去 记 住 训练 集 

o 遇 到 训练 集中 没有 的 数据 时 ， 分 类 器 可 能 就 没 辐 了 

o 所 以 我 们 应 该 measure 的 是 ， 分 类 器 如 何 产 生 新 数据 (生成 能 力 (推导 能 力 ) 越 大 ， 
说 明 它 应 对 新 数据 能 力 越 强 ) 

o 仅 measure 分 类 器 记忆 数据 集 的 能 力 并 不 能 应 对 新 数据 (没有 学 到 规律 ) ， 所 以 不 应 
该 拿 晶 数据 去 measure 

o 因此 measure 的 方式 应 该 是 拿 新 数据 去 看 分 类 器 的 预测 准确 度 (never see, can't 
memorize ) 


T 


o 但 是 在 measure 的 过 程 中 ， 我 们 会 根据 测试 数据 去 重新 调整 分 类 器 ， 使 其 对 所 有 测试 
数据 都 生效 

o 也 就 是 说 测试 数据 变 成 了 训练 集 的 一 部 分 ， 因 此 这 部 分 数据 我 们 只 能 作为 
valid dataset， 而 不 能 用 于 衡量 最 后 的 performance 

o 解决 方法 之 一 即 ， 最 终 进行 Derformance measure 的 数据 集 ， 必 须 是 调整 分 类 器 的 过 
程 中 没有 使 用 过 

o 即 坚 持 一 个 原则 ， 测 试 数据 不 用 于 训练 

在 机 器 学 习 比 赛 Kaggle 中 ， 有 public data > validate data， 并 有 用 于 测试 (选手 未 

知 ) 的 private data， 只 有 在 训练 时 自己 的 分 类 器 时 ， 预 先 取 一 部 分 数据 作为 test 

data ， 才 能 不 会 在 train 和 valid 的 过 程 中 被 已 有 数据 所 蒙蔽 


e Validation dataset 


o 验证 集 越 大 ， 验 证 的 可 信 度 越 大 


o 统计 学 上 上， 调整 分 类 器 后 ， 当 30 个 以 上 预测 结果 的 正确 性 发 生变 化 的 话 ， 这 种 变化 
TSH) > HAIER S h T30XTRdE 

o 因此 Validation dataset 通 第 数据 要 大 于 30000 人 个， 在 准确 率 变 化 高 于 0.1% 时 ， 认 为 分 
X 8$ A performance È 1U 

o 但 这 样 需要 的 数据 往往 偏 多 ， 所 以 可 以 尝试 交叉 验证 (cross validation) > X LAE 
有 个 缺点 是 速度 慢 

o 验证 时 ， 使 用 tensor.eval(input)， 相 当 于 tf.get default session().run(tensor) 


扩展 阅读 : 西瓜 书 第 二 章 . 模 型 评估 与 选 


觉得 得 我 的 文章 对 您 有 帮助 的 话 ， 就 给 个 star 吧 一 


otochastic Optimization 


Stochastic Optimization 


Github 工 程 地 址 : https://github.com/ahangchen/GDL notes 
欢迎 star， 有 问题 可 以 到 Issue 区 讨论 

官方 教程 地 址 

视频 /字幕 下 载 


e 实践 中 大 量 机 器 学 习 都 是 通过 梯度 算 子 来 求 优化 的 

。 但 有 一 些 问题 ， 最 大 的 问题 就 是 ， 梯 度 很 难 计算 

e 我 们 要 计算 train loss， 这 需要 基于 整个 数据 集 的 数据 做 一 个 计算 

e 而 计算 使 train loss 下 降 最 快 的 调整 方向 需要 的 时 间 是 计算 train loss 本 身 的 三 倍 
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e 因此 有 了 SGD : Stochastic Gradient Descent 
o 计算 train loss 时 ， 只 随机 取 一 小 部 分 数据 集 做 为 输入 
o 调整 W 和 bb 时， 人 调整 的 大 小 step 需 要 比较 小 ， 因 为 数据 集 小 ， 我 们 找到 的 不 一 定 是 对 
的 方向 
o 这 样 也 就 增加 了 调整 的 次 数 
o 但 可 观 地 减 小 了 计算 量 


Stochastic Optimization 
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SGD 的 优化 


实际 上 SGD 会 使 得 每 次 寻找 的 方向 都 不 是 很 准 ， 因 此 有 了 这 些 优化 


e 随机 的 初始 值 


HELPING SGD 


A- INPUTS 
NEAN = J 
EQUAL variance (Smart) 
J- IWITIAL WEIGHTS 
RANDOM ! 
MEAN =ø 
EQUAL VARIANCE CSTALL Toe ) 


e Momentum 


考虑 以 前 的 平均 调整 方向 来 决定 每 一 步 的 调整 方向 
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Stochastic Optimization 


MoMENTUM 


beh 






Kos), | 


一 o M. (v, jux) 


e [ earning Rate Decay 


o 训练 越 靠 近 目 标 ， 步 长 应 该 越 小 
e Parameter Hyperspace 


o Learning Rate 〈 即 调整 的 step) 不 是 越 大 越 好 ， 可 能 有 瓶颈 
o SGD 有 许多 参数 可 以 调整 ， 所 以 被 称 为 黑 魔 法 


MANY HYPERPARAHETEARS 
» WITIAL LEAANING AME 
LEARNING ARATE DECAY 
, MOMENTUM 

, BATCH SIZE | | 

, WEIGHT INITIALIZATION 


o AdaGurad 


= 自动 执行 nomentum 和 learning rate decay 

" 使 得 SGD 对 参数 不 像 原 来 那样 敏感 

m 目 动 调整 效果 不 如 原来 的 好 ， 但 仍然 是 一 个 option 
扩展 阅读 : SGD 
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Stochastic Optimization 


觉得 得 我 的 文章 对 您 有 帮助 的 话 ， 就 给 个 star 吧 ~ 
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参数 


e SGDA it 
e SGD it 


x 


NN WY 
Me 


x 


可 以 调整 ， 所 以 被 称 为 黑 魔 法 阅读 
可 以 调整 ， 所 以 被 称 为 黑 魔 法 
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Deep Neural Network 


e [imit of Linear Model 
e Neural network 
o 神经 网 络 实践 
e 优化 神经 网 络 : Deep Network 
o 防止 深度 神经 网 络 过 拟 合 
=» Regularization 
=» Dropout 
o 深度 神经 网 络 实践 


Limit of Linear Model 


e 实际 要 调整 的 参数 很 多 


LINEAR MODEL COMPLEXITY 





NUTIBER OF , ee 
PARANETERS . 


[ 3359 |: 28x28 xlo«lo 


如 果 有 N 个 Class，K 个 Label， 需 要 调整 的 参数 就 有 (N+1)K 个 





e Linear Model 不 能 应 对 非 线性 的 问题 


|iWERA MODELS ARE . 
Hi - X, T ^, 
y- X, X, x | 
e Linear Model 的 好 处 


o GPU 就 是 设计 用 于 大 和 矩阵 相 乘 的 ， 因 此 它们 用 来 计算 Linear Model 非 常 高 效 
o Stable : input 的 微小 改变 不 会 很 大 地 影响 output 





Limit of Linear Model 


YV WX — AY~IWIAx 
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E. LL SMALL 
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o 求 导 方便 : 线性 求 导 是 常数 


e eld 性 的 ， 但 整个 model 是 非 线 性 的 
e 所 以 需要 对 各 个 线性 模型 做 非 线 性 组 合 
o 最 简单 的 非 线 性 组 合 : 分 段 线 性 函数 (RELU) 


RECTIFIED LINEAR UNITS (RELU) 





25 


Neural network 


e 用 一 个 RELU 作 为 中 介 ， 一 个 Linear Model 的 输出 作为 其 输入 ， 其 输出 作为 另 一 个 Linear 
Model 的 输入 ， 使 其 能 够 解决 非 线性 问题 


NEURAL 
NETWORK 





e 神经 网 络 并 不 一 定 要 完全 像 神经 元 那样 工作 
e Chain Rule: 复合 函数 求 导 规 律 


Lael = oet 
7 lon 


DERIVATIVE 
e 大 量 可 重用 的 数据 ， 多 于 实现 〈 简 单 的 数据 流 ) 
e Back propagation 


Neural network 


BACK - PROPAGATION 
FORWARD PROP 


> ORI 


Av, AW 


o 计算 train _ loss 时 ， 数 据 正 向 流入 ， 计 算 梯 度 时 ， 逆 向 计算 
o 计算 梯度 需要 的 内 存 和 计算 时 间 是 计算 train _ loss 的 两 倍 
e 利用 上 面 的 知识 ， 结 合 lesson1 中 的 SGD， 训 练 一 个 全 连接 神经 网 络 : 神经 网 络 实践 









BACK PROP 


扩展 阅读 : 西瓜 书 第 五 草 - 神 经 网 络 


7 
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2/ 


全 连 援 神经 网 络 


辅助 阅读 : TensorFlow 中 文 社区 教程 - 英文 官方 教程 


代码 见 : full connect.py 


Linear Model 


e 加 载 lesson 1 中 的 数据 集 
e 将 Data 降 维 成 一 维 ， 将 label 映 射 为 one-hot encoding 


def reformat(dataset, labels): 
dataset = dataset.reshape((-1, image size * image size)).astype(np.float32) 
# Map © to [1.0, 0.0, 0.0 ...], 1 to [0.0, 1.0, 0.0 ...] 
labels = (np.arange(num labels) == labels[:, None]).astype(np.float32) 
return dataset, labels 


TensorFlow Graph 


e 使 用 梯度 计算 train loss， 用 tf.Graph() 创 建 一 个 计算 单元 


o 用 tf.constant 将 dataset 和 |abel 转 为 tensorflow 可 用 的 训练 格式 (训练 中 不 可 修改 ) 
o 用 tf.truncated normal 生成 正太 分 布 的 数据 ， 作 为 W 的 初始 值 ， 初 始 化 b 为 可 变 的 0 憩 
[E 
o 用 tf.variable 将 上 面 的 矩阵 转 为 tensorflow 可 用 的 训练 格式 (训练 中 可 以 修改 ) 
o TensorFlow 的 Tutorial 里 有 这 样 一 句 话 : 
itis also good practice to initialize them with a slightly positive initial bias to avoid 


"dead neurons." 
所 以 init 时 value 设 置 为 0.1 会 比较 好 ( 恩 ， 这 也 是 黑 魔 法 ) 


o Jl tf.matmul S: LAE mR » TEE WXerb » 3x €. x: Es ElogitA -ARE > MFR 

o 用 tf.nn.softmax cross entropy with logits 计 算 WX+b 的 结果 相 较 于 原来 的 label 的 
train loss， 并 求 均值 

o 使 用 梯度 找到 最 小 train loss 


optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss) 


o 计算 相对 valid dataset 和 test dataset 对 应 的 label 的 train loss 
上 面 这 些 变量 都 是 一 种 Tensor 的 概念 ， 它 们 是 一 个 个 的 计算 单元 ， 我 们 在 Graph 中 设 


这 
置 了 这 些 计 算 音 元， 规定 了 它们 的 组 合 方式 ， 就 好 像 把 一 个 个 门 电路 串 起 来 那样 


Xm or 
S 


TensorFLow Session 


Session 用 来 执行 Graph 里 规定 的 计算 ， 就 好 像 给 一 个 个 门 电 路 通 上 电 ， 我 们 在 Session 里 ， 给 
计算 单元 冲 上 数据 ，That's Flow. 


e 重复 计算 单元 反复 训练 800 次 ， 提 高 其 准确 度 


o 为 了 快速 查看 训练 效果 ， 每 轮训 练 只 给 10000 个 训练 数据 (Subset)， 恩 ， 每 次 都 是 相 
同 的 训练 数据 

o 将 计算 单元 graph 传 给 session 

o 初始 化 参数 

o 传 给 session 优 化 器 - train loss 的 梯度 optimizer， 人 训练 损失 - train loss， 每 次 的 预测 
结果 ， 和 循环 执行 训练 


with tf.Session(graphzgraph) as session: 
tf.global variables initializer().run() 
for step in range(num steps): 
_, l, predictions = session.run([optimizer, loss, train prediction]) 


o 值得 注意 的 是 ， 如 果 session.run 的 时 候 ， 不 把 optimizer fetch & > optimizerz& ^ 
工作 的 

o 在 循环 过 程 中 ，W 和 b 会 保留 ， 并 不 断 得 到 修正 

o 在 每 100 次 循环 后 ， 会 用 验证 集 进 行 验证 一 次 ， 验 证 也 同时 修正 了 一 部 分 参数 


valid prediction.eval() 


o 最 后 用 测试 集 进行 测试 

o 注意 如 果 |esson Te 乱 序 化 ， 可 能 训练 集 预 测 准 确 度 很 高 ， 验 证 集 和 
测试 集 准确 度 会 很 低 

这 样 训练 的 准确 度 为 83.2% 


SGD 


e 每 次 只 取 一 小 部 分 数据 做 训练 ， 计 算 loss 时 ， 也 只 取 一 小 部 分 数据 计算 loss 


o 对 应 到 程序 中 ， 即 修改 计算 单元 中 的 训练 数据 ， 
" 每 次 输入 的 训练 数据 只 有 128 个 ， 随 机 取 起 点 ， 取 连续 128 个 数据 : 


offset = (step * batch size) % (train_labels.shape[0] - batch size) 
batch data = train dataset[offset:(offset + batch size), :] 
batch labels = train labels[offset:(offset + batch size), :] 


o 由 于 这 里 的 数据 是 会 变化 的 ， 因 此 用 tf.placeholder 来 存放 这 块 空间 


tf train dataset = tf.placeholder(tf.float32, 

shape-(batch size, image size * image s 
ize)) 
tf train labels = tf.placeholder(tf.float32, shapez(batch size, num labels)) 


o 计算 3000 次 ， 训 练 总 数据 量 为 384000， 比 之 前 8000000 少 
准确 率 提 高 到 86.5%， 而 且 准 确 府 随 训 练 次 数 增加 而 提高 的 速度 变 快 了 


神经 网 络 
e 上 面 SGD 的 模型 只 有 一 层 WX+b， 现 在 使 用 一 个 RELU 作 为 中 间 的 隐藏 层 ， 连 接 两 个 
WX+b 


o 仍然 只 需要 修改 Graph 计算 单元 为 


Y = W2 * RELU(W1*X + b1) + b2 


o 为 了 在 数学 上 满足 矩阵 运算 ， 我 们 需要 这 样 的 矩阵 运 距 : 


[n * 10] = RELU([n * 784] - [784 * N] + [n * N]) - [N * 10] + [n * 10] 


o 这 里 N 取 1024， 即 1024 个 隐藏 结 点 
o 于 是 四 个 参数 被 修改 


weights1 = tf.Variable( 
tf.truncated normal([image size * image size, hidden node count])) 
biases1 = tf.Variable(tf.zeros([hidden node count])) 
weights2 - tf.Variable( 
tf.truncated normal([hidden node count, num labels])) 
biases2 - tf.Variable(tf.zeros([num labels])) 


o 预测 值 计算 方法 改 为 


ys = tf.matmul(tf train dataset, weights1) + biases1 
hidden tf.nn.relu(ys) 
logits tf.matmul(hidden, weights2) + biases2 


o 计算 3000 次 ， 可 以 发 现 准确 举 一 开始 提高 得 很 快 ， 后 面 提高 速度 变 缓 ， 最 终 测试 准 
确 率 提高 到 88.8% 


Deep Network 


Deep Neural Network 


Current two layer neural network: 


2-LAYER NEURAL NETWORK 


Or» 


ND <. 
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优化 : 


e 优化 RELU( 隐 茂 层 ), wider 
e 增加 linear 层 ，layer deeper 


DEEP NETWORKS 
SCR 
SIC SOR 
SLO | SIC 


o Performance: few parameters by deeper 
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231 


o 随 层 级 变 高 ， 获 得 的 信息 越 综 合 ， 越 符合 目标 


DEEP “WETWORKS 
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About t-model 


e t-model 只 有 在 有 大 量 数据 时 有 效 
e 今天 我 们 才 有 高 效 的 大 数据 训练 方法 : Better Regularization 
e 难以 决定 适应 问题 的 神经 网 络 的 规模 ， 因 此 通 第 选择 更 大 的 规模 ， 并 防止 过 拟 合 


Avoid Overfit 


Early Termination 


e 当 训 练 结 果 与 验证 集 符合 度 下 降 时 ， 就 停止 训练 





Deep Network 


EARLY TERNIVATION 





stor 
vA on HERE 

am | . l 
J we OVERFTTWE. 

cx ef 

e 
ac 
; . ` > 
TRAWING TINE 
Regularization 


e 给 神经 网 络 里 加 一 些 第 量 ， 做 一 些 限制 ， 减 少 自由 的 参数 
e L2 regularization 


Ls REGULARIZATION 


NEW 
LOSS 


L=L + Att 
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在 计算 train loss 时 ， 增 加 一 个 |2 norm 作 为 新 的 损失 ， 这 里 需要 乘 一 个 B (Hyper 
parameter) ， 调 整 这 个 新 的 项 的 值 


Hyper parameter : 拍 脑 袋 参 数 一 一 


e |2 模 的 导数 容易 计算 ， 即 W 本 身 


DropOut 
最 近 才 出 现 ， 效 果 极 其 好 


e 从 一 个 layer 到 为 一 个 layer 的 value 被 称 为 activation 

e 将 一 个 layer 到 另 一 个 layer 的 value 的 中 ， 随 机 地 取 一 半 的 数据 变 为 0， 这 其 实 是 将 一 半 的 
数据 直接 丢掉 

e 由 于 数据 缺失 ， 所 以 就 强迫 了 神经 网 络 学 习 redundant 的 知识 ， 以 作为 损失 部 分 的 补充 

e 由 于 神经 网 络 中 总 有 其 他 部 分 作为 损失 部 分 的 补充 ， 所 以 最 后 的 结果 还 是 OK 的 

e More robust and prevent overfit 

o 如 果 这 种 方法 不 能 生效 ， 那 可 能 就 要 使 用 更 大 的 神经 网 络 了 


e 评估 神经 网 络 时 ， 就 不 需要 DropOut， 因 为 需要 确切 的 结果 


e 可 以 将 所 有 Activation 做 平均 ， 作 为 评估 的 依据 
e 因为 我 们 在 训练 时 去 掉 了 一 半 的 随机 数据 ， 如 果 要 让 得 到 Activation 正 确 量 级 的 平均 值 ， 
就 需要 将 没 去 掉 的 数据 翻 倍 
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深度 神经 网 络 实践 


代码 见 nn_overfit.py 


优化 


Regularization 


在 前 面 实现 的 RELU 和 连接 的 两 层 神 经 网 络 中 ， 加 Regularization 进 行 约束 ， 采 用 加 |2 norm 的 方 
法 ， 进 行 负 反 馈 : 


Ls REGULARIZATION 





代码 实现 上 ， 只 需要 对 {f sgd_relu_nn 中 train_loss 做 修改 即 可 : 


e 可 以 用 tf.nn.|2_ loss(t) 对 一 个 Tensor 对 象 求 |2 norm 
e 需要 对 我 们 使 用 的 各 个 W 都 做 这 样 的 计算 (参考 tensorflow 官 方 example) 


12 loss = tf.nn.l12 loss(weightsi) + tf.nn.12 loss(weights2) 


e 4402 \train_loss_E 
e 这 里 还 有 一 个 重要 的 点 ，Hyper Parameter: B 
o 我 觉得 这 是 一 个 拍 脑袋 参数 ， 取 什么 值 都 行 ， 但 效果 会 不 同 ， 我 这 里 解释 一 下 我 取 
B=0.001 的 理由 
o 如 果 直 接 将 |2_ loss 加 到 train_loss 上 ， 每 次 的 train_loss 都 特别 大 ， 几 乎 只 取决 于 
I2 loss 
o 为 了 让 原本 的 train_loss 与 |2_ loss 都 能 较 好 地 对 参数 调整 方向 起 作用 ， 它 们 应 当 至 少 


在 同一 个 量 级 


o 观察 不 加 |2 loss，step 0 H > train loss4£ 300. Æ 
o 加 Il2 loss/$ > step 0 HT > train loss4£ 300000 £x 
o [4362512 loss 乘 0.0001 使 之 降 到 同一 个 量 级 


loss = tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-logits, 
labels-tf train labels)) + 0.001 * 12 loss 


o 所 有 其 他 参数 不 变 ， 训 练 3000 次 ， 准 确 率 提高 到 92.7% 
o 黑 魔 法 之 所 以 为 黑 魔 法 就 在 于 ， 这 个 参数 可 以 很 容易 地 影响 准确 率 ， 如 果 B = 
0.002， 准 确认 提高 到 93.5% 


OverFit!*] & 
在 训练 数据 很 少 的 时 候 ， 会 出 现 训 练 结果 准确 率 高 ， 但 测试 结果 准确 率 低 的 情况 
e 缩小 训练 数据 范围 : 将 把 batch 数 据 的 起 点 offset 的 可 选 范围 变 小 (只 能 选择 0-1128 之 间 的 
数据 ) 


offset range = 1000 
offset = (step * batch size) % offset range 


e 可 以 看 和 到， 在 step500 后 ， 训 练 集 就 一 直 是 100%， 验 证 集 一 直 是 77.6%， 准 确 度 无 法 随 
训练 次 数 上 升 ， 最 后 的 测试 准确 度 是 85.4% 


DropOut 
采取 Dropout 方 式 强 迫 神 经 网 络 学 习 更 多 知识 
参考 aymericdamien/TensorFlow-Examples 中 dropout 的 使 用 


e 我 们 需要 丢掉 RELU 出 来 的 部 分 结果 
e 调用 tf.nn.dropout 达 到 我 们 的 目的 : 


keep prob = tf.placeholder(tf.float32) 

if drop out: 
hidden drop - tf.nn.dropout(hidden, keep prob) 
h fc = hidden drop 


e 这 里 的 keep prob 是 保留 概 举 ， 即 我 们 要 保留 的 RELU 的 结果 所 占 比 例 ，tensorflow 建 议 
的 语法 是 ， 让 它 作 为 一 个 placeholder， 在 run 时 传 入 
e 当然 我 们 也 可 以 不 用 placeholder， 直 接 传 一 个 0.5 : 


if drop out: 
hidden drop = tf.nn.dropout(hidden, 60.5) 
h fc - hidden drop 


e 这 种 训练 的 结果 就 是 ， 虽 然 在 step 500 对 训练 集 预 测 没 能 达到 100% (起 步 慢 ) ， 但 训练 


集 预 测 率 达 到 100% 后 ， 验 证 集 的 预测 正确 率 仍 然 在 上 升 

e 这 就 是 Dropout 的 好 处 ， 每 次 丢掉 随机 的 数据 ， 让 神经 网 络 每 次 都 学 习 到 更 多 ， 但 也 需要 
知道 ， 这 种 方式 只 在 我 们 有 的 训练 数据 比较 少时 很 有 效 

e 最 后 预测 准确 率 为 88.0% 


Learning Rate Decay 


随 着 训练 次 数 增加 ， 和 上 自动 调整 步 长 


e 在 之 前 单纯 两 层 神 经 网 络 基 础 上 ， 添 加 Learning Rate Decay 算 法 
e 使 用 tf.train.exponential decay 方 法 ， 指 数 下 降 调 整 步 长 ， 具 体 使 用 方法 官方 文档 说 的 特 


别 A 


e 注意 这 里 面 的 cur_step 传 给 优化 器 ， 优 化 器 在 训练 中 对 其 做 自 增 计数 
e 与 之 前 单纯 两 层 神经 网 络 对 比 ， 准 确 率直 接 提 高 到 90.6% 


Deep Network 


增加 神经 网 络 层 数 ， 增 加 训练 次 数 到 20000 


e 为 了 避免 修改 网 络 层 数 需要 重 写 代码 ， 用 循环 实现 中 间 层 


for 1 in range(layer cnt - 2): 
y1 = tf.matmul(hidden drop, weights[i]) + biases[i] 
hidden drop - tf.nn.relu(yi) 
if drop out: 
keep prob += 0.5 * i / (layer cnt + 1) 
hidden drop - tf.nn.dropout(hidden drop, keep prob) 


e 初始 化 weight 在 迭代 中 使 用 


for 1 in range(layer cnt - 2): 
if hidden cur cnt > 2: 
hidden next cnt - int(hidden cur cnt / 2) 
else: 
hidden next cnt - 2 
hidden stddev - np.sqrt(2.0 / hidden cur cnt) 
weights.append(tf.Variable(tf.truncated normal([hidden cur cnt, hidden next cnt 
stddev-hidden stddev))) 
biases.append(tf.Variable(tf.zeros([hidden next cnt]))) 
hidden cur cnt - hidden next cnt 


~ 


] 


o 第 一 次 测试 时 ， 用 正太 分 布设 置 所 有 W 的 数值 ， 将 标准 差 设 置 为 1， 由 于 网 络 增加 了 
一 层 ， 寻 找 step 调 整 方向 时 具有 更 大 的 不 确定 性 ， 很 容易 导致 loss 变 得 很 大 

o 因此 需要 用 stddev 调 整 其 标准 差 到 一 个 较 小 的 范围 (怎么 调整 有 许多 研究 ， 这 里 直 
接 找 了 一 个 来 用 ) 


stddev = np.sqrt(2.0 / n) 


启用 regular 时 ， 也 要 适当 调 一 下 B， 不 要 让 它 对 原本 的 lOss 造 成 过 大 的 影响 


DropOut 时 ， 因 为 后 面 的 layer 得 到 的 信息 越 重 要 ， 需 要 动态 调整 丢弃 的 比例 ， 到 后 面 的 
layer ， 丢 弃 的 比例 要 减 小 


keep prob += 0.5 * 1 / (layer cnt + 1) 


训练 时 ， 调 节 参 数 ， 你 可 能 遇 到 消失 的 梯度 问题 ， 对 于 一 个 幅度 为 1 的 信号 ， 在 BP 反 向 
传播 梯度 时 ， 每 隔 一 层 下 降 0.25， 指 数 下 降 使 得 后 面 的 层级 根本 接收 不 到 有 效 的 训练 信 
号 

官方 教程 表示 最 好 的 训练 结果 是 ， 准 确认 97.5%， 

我 的 nn overfit.py 开 尼 六 层 神 经 网 络 ， 局 用 Regularization、DropOut、Learning Rate 
Decay ， 训 练 次 数 20000 (应 该 还 有 再 训练 的 希望 ， 在 这 里 虽然 lOsS 下 降 很 慢 了 ， 但 仍然 
在 下 降 ) ， 训 练 结果 是 ， 准 确认 95.2% 


神经 网 络 做 数据 分 类 


问题 描述 


给 定 两 个 范围 在 [-1, 1] 之 间 的 数字 [x1, x2]， 求 落 在 [-0.5, 0.5] 之 间 的 数字 个 数 


思路 


e 构建 一 个 神经 网 络 ， 包 含 知 干 层 ， 将 一 系列 训练 数据 输入 训练 参数 进行 预测 
e 神经 网 络 的 每 层 用 一 个 Relu(Wx+b) 实 现 


问题 分 解 


e 构建 数据 集 
o 实际 上 ， 我 们 需要 先 判 断 X 是 否 落 在 目标 区 间 ， 是 ， 则 为 1， 不 是 则 为 0， 将 结果 相 加 
o 代码 见 train data % žk 
e 神经 网 络 搭建 
o 思路 同 之 前 的 深度 神经 网 络 训 练 手 写 文字 识别 
o 暂时 不 做 优化 
o 仅 搭 建 两 层 神经 网 络 
o 暂时 不 做 validate ， 因 为 数据 充分 ， 每 次 训练 都 是 新 数据 ， 新 数据 都 相当 于 validate 


代码 : digit_nn.py 


VIZA 2E 
仅 截取 最 后 一 次 结果 为 例 


current first data [0.206416, 0.101028] 

current first predict: [0.000000, 0.000177, 0.999823] 
Minibatch loss at step 9980: 0.036539 

Minibatch accuracy: 100.9096 


Convolutional Networks 


deep dive into images and convolutional models 


Convnet 


BackGround 


。 人 眼 在 识别 图 像 时 ， 往 往 从 局 部 到 全 局 

o yeh A keh ZK AREER ARB 

e 我 们 不 需要 神经 网 络 中 的 每 个 结 点 都 掌握 全 局 的 知识 ， 因 此 可 以 从 这 里 减少 需要 学 习 的 
参数 数量 


Weight share 


e 但 这 样 参 数 其 实 还 是 挺 多 的 ， 所 以 有 了 另 一 种 方法 : 权 值 共享 
Share Parameters across space 


e 取 图 片 的 一 小 块 ， 在 上 面 做 神经 网 络 分 析 ， 会 得 到 一 些 预测 
将 切片 做 好 的 神经 网 络 作 用 于 图 片 dp ER > 得 到 一 系列 输出 


e 可 以 增加 切片 个 数 提 取 更 多 特征 


e 在 这 个 过 程 中 ， 梯 度 的 计算 跟 之 前 是 一 样 的 


Concept 


CONVOLUTIONAL 
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e Patch/Kernel : 一 个 局 部 切片 

e Depth: 数据 的 深度 ， 图 像 数 据 是 三 维 的 ， 长 窜 和 RGB， 和 神经 网 络 的 预测 输出 也 属于 一 维 

e Feature Map : 每 层 Conv 网 络 ， 因 为 它们 将 前 一 层 的 feature 映 射 到 后 一 层 (Output 
map ) 


CONVOLUTIONAL VALID Pangin 
‘SAME PADING 


LINGO 





e Stride: 移动 切片 的 步 长 ， 影 响 取样 的 数量 
e 在 边缘 上 的 取样 影响 Conv 层 的 面积 ， 由 于 移动 步 长 不 一 定 能 整除 整 张 图 的 像素 宽度 ， 不 
越过 边缘 取样 会 得 到 Valid Padding ， 越 过 边缘 取样 会 得 到 Same Padding 


e Example 
STRIDES, DEPTH % PADDING 
28 


OUTPUT 
2 PADDWE |SRipE| WIDTH | HEIGHT | DEPTH 





o 用 一 个 3x3 的 网 格 在 一 个 28x28 的 图 像 上 做 切片 并 移动 

o 移动 到 边缘 上 的 时 候 ， 如 果 不 超出 边缘 ，3X3 的 中 心 就 到 不 了 边界 

o 因此 得 到 的 内 容 就 会 缺乏 边界 的 一 圈 像 素 点 ， 只 能 得 到 26x26 的 结果 
o 而 可 以 越过 边界 的 情况 下 ， 就 可 以 让 3Xx3 的 中 心 到 达 边 界 的 像素 点 

o 超出 部 分 的 矩阵 补 零 就 行 


Deep Convnet 


在 Convnet 上 套 Convnet， 就 可 以 一 层 一 层 综合 局 部 得 到 的 信息 


OutPut 


将 一 个 deep and narrow 的 feature 层 作为 输入 ， 传 给 一 个 Regular 神 经 网 络 
CONVOLUTIONAL NETWORK 
COWVOLUTIONS 
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Optimization 


Pooling 
将 不 同 Stride 的 卷 积 用 东 种 方式 合并 起 来 ， 节 省 卷 积 层 的 空间 复杂 度 。 


e Max Pooling 在 一 个 卷 积 层 的 输出 层 上 取 一 个 切片 ， 取 其 中 最 大 值 代表 这 个 切片 
e 优点 

o 不 增加 需要 调整 的 参数 

o 通常 比 其 他 方法 准确 
e 缺点 : 更 多 Hyper Parameter， 包 括 要 取 最 值 的 切片 大 小 ， 以 及 去 切片 的 步 长 


LENET-5, ALEXNET 


e Average Pooling 在 卷 积 层 输出 中 ， 取 切片 ， 取 平均 值 代表 这 个 切片 


1x1 Convolutions 
在 一 个 疮 积 层 的 输出 层 上 ， 加 一 个 1xX1 的 卷 积 层 ， 这 样 就 形成 了 一 个 小 型 的 神经 网 络 。 
e cheap for deeper model 


e 结合 Average Pooling 食 用 效果 更 加 


Inception 


Lesson 3 Convolutional Networks 


对 同一 个 卷 积 层 输出 ， 执 行 各 种 二 次 计算 ， 将 各 种 结果 堆 合 到 新 输出 的 depth 方 向 上 


INCEPTION MODULES 





卷 积 神经 网 络 实践 


参考 链接 


e 3AA Conv 和 神经 网 络 
e Bill Xia 卷 积 神经 网 络 (CNN) 
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卷 积 神经 网 络 实践 


本 节 介 绍 如 何 构 造 一 个 简单 的 CNN 模 型 进行 手写 数字 识别 ， 


但 在 现实 场景 中 ， 往 往 使 用 imagenet 预 训练 的 深度 CNN 模 型 进行 迁移 学 习 ， 能 极 大 地 提 
升 预测 准确 率 > 


可 参考 我 在 百度 大 数据 竞赛 中 开源 的 模型 : keras-dog 


数据 处 理 


e dataset 处 理 成 四 维 的 ，label 仍 然 作 为 one-hot encoding 


def reformat(dataset, labels, image size, num labels, num channels): 
dataset - dataset.reshape( 
(-1, image size, image size, num channels)).astype(np.float32) 
labels = (np.arange(num labels) == labels[:, None]).astype(np.float32) 
return dataset, labels 


e 将 lesson2 的 dnn 转 为 cnn 很 简单 ， 只 要 把 WX+b 改 为 conv2d(X)+b 即 可 
e 关键 在 于 conv2d 


tf.nn.conv2d(input, filter, strides, padding, use cudnn on c 
给 定 四 维 的 input 和 filter tensor， 计 算 一 个 二 维 卷 积 


Args: 


e input :A Tensor ,type 必须 是 以 下 几 种 类 型 之 一 : half , float32 , float64. 

e filter :A Tensor .type 和 input 必须 相同 

e strides :Alistof ints .一 维 ， 长 度 4， 在 input 上 切片 采样 时 ， 每 个 方向 上 的 滑 窗 步 
长 ， 必 须 和 format 指 定 的 维度 同 阶 

e padding :A string from: "same", "vALID" . padding 算法 的 类 型 

è use cudnn on gpu : An optional bool . Defaults to True . 

èe data format : An Optional string from: "NHWwc", "NcHw" > 默认 为 "NHwC" ° 指定 输入 
输出 数据 格式 ， 默 认 格 式 为 "NHWC", 数据 按 这 样 的 顺 友 存储 : 


"[batch, in height, in width, in channels]' 


也 可 以 用 这 种 方式 : "NCHW'", 数据 按 这 样 的 顺序 存储 : 


"[batch, in channels, in height, in width] 


* name EVER d 可 选 . 


Returns: 
A Tensor . type 与 input 相同 


Given an input tensor of shape [batch, in height, in width, in channels] and a filter / 
kernel tensor of shape [filter height, filter width, in channels, out channels] 


conv2d 实 际 上 执行 了 以 下 操作 : 


1， 将 filter 转 为 二 维 矩 阵 ，shape 为 
[filter height * filter width * in channels, output channels] . 
2， 从 input tensor 中 提取 image patches > # patch — ^virtual tensor > 
shape [batch, out height, out width, filter height * filter width * in channels]. 
3. 将 每 个 filter 和 矩阵 和 image patch) = 48 $ 


具体 来 讲 ， 当 data format 为 NHWC 时 : 


output[b, i, j, k] = 
sum (di, dj, qj input[b, strides[1] * i + di, strides[2] * J + dj, q] ~ 
filter[di, dj, q, k] 


input 中 的 每 个 patch 都 作用 于 filter， 每 个 patch 都 能 获得 其 他 patch 对 filter 的 训练 需要 满 
Æ strides[0] = strides[3] = 1 .大 多 数 水 平 步 长 和 重 直 步 长 相同 的 情况 


T: strides = [1, stride, stride, 1]. 


e 然后 再 接 一 个 WXt+b 连 Relu 连 WXt+b 的 全 连接 神经 网 络 即 可 


Max Pooling 
在 tf.nn.conv2d 后 面 接 tfnn.max_pool， 将 益 积 层 输 出 减 小 ， 从 而 减少 要 调整 的 参数 


tf.nn.max pool(value, ksize, strides, padding, data format-' 
Performs the max pooling on the input. 


Args: 


e value :A4-D Tensor with shape [batch, height, width, channels] and type 
tf.float32. 

e ksize : A list of ints that has length >= 4. 要 执行 取 最 值 的 切片 在 各 个 维度 上 的 尺寸 

e strides : A list of ints that has length >= 4. 取 切 片 的 步 长 


e padding : A String, either 'vALID' or 'SAME' . padding 算 法 
e data_format : A string. NHWC' and 'NCHW' are supported. 
e name :操作 名 ， 可 选 


Returns: 


A Tensor With type tf.float32 . [he max pooled output tensor. 


优化 


仿照 lesson2， 添 加 learning rate decay 和 drop out， 可 以 将 准确 座 提 高 到 90.6% 


种 元 
e 最 近 在 用 GPU 版 本 的 TensorFlow， 发 现 ， 如 果 import tensorflow 放 在 代码 第 一 行 ， 运 行 会 


报 段 错误 (pycharm debug 模 式 下 不 会 ) ， 因 此 最 好 在 import tensorflow 前 import numpy 
或 者 其 他 的 module 


参考 链接 


e Tensorflow 中 conv2d 都 干 了 哈 
e [ensorFlow Example 


Deep Models for Text and Sequence 


Rare Event 
与 其 他 机 器 学 习 不 同 ， 在 文本 分 析 里 ， 陌 生 的 东西 (rare event) 往往 是 最 重要 的 ， 而 最 常见 


的 东西 往往 是 最 不 重要 的 。 


各 法 多 义 性 


e 一 个 东西 可 能 有 多 个 名 字 ， 对 这 种 related 文 本 能 够 做 参数 共享 是 最 好 的 
e 需要 识别 单词 ， 还 要 识别 其 关系 ， 就 需要 过 量 label 数 据 


无 监督 学 习 


e 不 用 label 进 行 训 练 ， 训 练 文 本 是 非常 多 的 ， 关 键 是 要 找到 训练 的 内 容 
e 遵循 这 样 一 个 思想 : 相似 的 词汇 出 现在 相似 的 场景 中 
e 不 需要 知道 一 个 词 趴 实 的 含义 ， 词 的 含义 由 它 所 处 的 历史 环境 决定 


Embeddings 


。 将 单词 映射 到 一 个 向 量 (Word2Vec) ， 越 相似 的 单词 的 向 量 会 越 接近 
e 新 的 词 可 以 由 语 境 得 到 共享 参数 


Word2Vec 
(JIN DOW 





THE QUICK BROWN FOX JUMPS OVER THE LATY DOG 
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e 将 每 个 词 映射 到 一 个 Vector 列表 (就 是 一 个 Embeddings) 里 ， 一 开始 随机 ， 用 这 个 
Embedding 进 行 预测 

e Context 即 Vector 列表 里 的 邻居 

e 目标 是 让 Window 里 相近 的 词 放 在 相 令 的 位 置 ， 即 预测 一 个 词 的 邻居 

e 用 来 预测 这 些 相 令 位 置 单词 的 模型 只 是 一 个 Logistics Regression > just a simple Linear 
model 


Comparing embeddings 


e 比较 两 个 vector 之 间 的 夹 角 大 小 来 判断 接近 程度 ， 用 coOs 值 而 非 L2 计 算 ， 因 为 vector 的 长 
度 和 分 类 是 不 相关 的 : 


COMPARING EMBEDDINGS 
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e 最 好 将 要 计算 的 vector 都 归 一 化 


Predict Words 


WORD 2 VEC 
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e 单词 经 过 embedding 变 成 一 个 vector 

e 然后 输入 一 个 WX+b， 做 一 个 线性 模型 

e 输出 的 label| 概 率 为 输入 文本 中 的 词汇 

e 问题 在 于 WX+b 输 出 时 ，label 太 多 了 ， 计 算 这 种 Softmax 很 低 效 

e 解决 方法 是 ， 算 掉 不 可 能 是 目标 的 label， 只 计算 某 个 label 在 某 个 局 部 的 概率 ，sample 
softmax 


t-SNE 


e 查看 某 个 词 在 embedding 里 的 最 近 令 居 可 以 看 到 单词 间 的 语义 接近 关系 

e 将 vector 构 成 的 空间 降 维 ， 可 以 更 高 效 地 查找 最 近 单 词 ， 但 降 维 过 程 中 要 保持 邻居 关系 
(原来 接近 的 降 维 后 还 要 接近 ) 

o t-SNE 就 是 这 样 一 种 有 效 的 方法 


3& p 


e 实际 上 我 们 能 得 到 的 不 仅 是 单词 的 邻接 关系 ， 由 于 将 单词 向 量化 ， 可 以 对 单词 进行 计算 
e 可 以 通过 计算 进行 语义 加 减 ， 语 法 加 减 


Lessson 4 Deep Models for Text and Sequence 
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Sequence 


文本 (Text) 是 单词 (word) 的 序列 ， 一 个 关键 特点 是 长 度 可 变 ， 就 不 能 直接 变 为 vector 


CNN and RNN 
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Lessson 4 Deep Models for Text and Sequence 


CNN 在 空间 上 共享 参数 ，RNN 在 时 间 上 (顺序 上 ) 共享 参数 


COUVOLUTIOMRL. RECURRENT 





WETWIORKS NETWORKS 


ANY 





在 每 轮训 练 中 ， 需 要 判断 至 今 为 之 发 生 了 什么 ， 过 去 输入 的 所 有 数据 都 对 当下 的 分 类 造 
一 种 思路 是 记忆 之 前 的 分 类 器 的 状态 ， 在 这 个 基础 上 训练 新 的 分 类 器 ， 从 而 结合 历史 影 
向 
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他 分 类 器 接受 对 应 时 间 的 训练 ， 然 后 传递 状 
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RNN Derivatives 


e BackPropagation Through time 

e 对 同一 个 weight 参 数 ， 会 有 许多 求 导 操作 同时 更 新 之 

e 对 SGD 不 友好 ， 因 为 SGD 是 用 许多 不 相关 的 求 导 更 新 参数 ， 以 保证 训练 的 稳定 性 
e 由 于 梯度 之 间 的 相关 性 ， 导 致 梯度 爆炸 或 者 梯度 消失 


VANISHING 
GRADIENT 


EXPLODING 
GRADIENT 
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e 使 得 训练 时 找 不 到 优化 方向 ， 训 练 失败 


Clip Gradient 
计算 到 梯度 爆炸 的 时 候 ， 使 用 一 个 比值 来 代替 AW 《梯度 是 回流 计算 的 ， 横 坐标 从 右 往 左 看 ) 


CKPLODING GRADIENTS : GRADIENT CLIPPING 


[auf 
hr 





t + 


e Hack but cheap and effective 


LSTM (Long Short-Term Memory ) 
梯度 消失 会 导致 分 类 器 只 对 最 近 的 消息 的 变化 有 反应 ， 淡 化 以 前 训练 的 参数 ， 也 不 能 用 比值 
的 方法 来 解决 

e 一 个 RNN 的 model 包 含 两 个 输入 ， 一 个 是 过 去 状态 ， 一 个 是 新 的 数据 ， 两 个 输出 ， 一 个 是 


预测 ， 一 个 是 将 来 状态 


VEURAL 
NET 、 y 





e 中 间 是 一 个 简单 的 神经 网 络 

将 中 间 的 部 分 换 成 LSTM-cell 就 能 解决 梯度 消失 问题 
e 我 们 的 目的 是 提高 RNN 的 记忆 能 

e Memory Cell 








FOAGET ? 


EN) > AGES ERE EU 


e 在 每 个 门 上 ， 不 单纯 做 yes/no 的 判断 ， 而 是 使 用 一 个 权重 ， 决 定 对 输入 的 接收 程度 
e 这 个 权重 是 一 个 连续 的 防 数 ， 可 以 求 导 ， 也 就 可 以 进行 训练 ， 这 是 LSTM 的 核心 
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e 用 一 个 逻辑 回归 训练 这 些 门 ， 在 输出 进行 归 一 化 


LOGISTIC 






REGRESSION 
i 9 -— oF GATE VALUE 
Wc --. 
| LJ 
Wi, + 


We--- * "nnm el-\o, to] 


(9oNT ASK...) 


arm “s 





e XE SIR AE TE SE cell € AF ILIA X 
e 由 于 整个 模型 都 是 线性 的 ， 所 以 可 以 方便 地 求 导 和 训练 
e 关于 lstm 有 这 样 一 篇 博客 讲 的 很 好 : 地 址 
e 稍微 翻 了 一 个 中 文 版 
LSTM Regularization 


e L2, works 
e Dropout on the input or output of data, works 


Beam Search 


4T Eé/4B EE > RAN TARBLL RAM FX: ESOL HOW RAMS 
的 词 ， 喂 回 ， 继 续 预 测 
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e 我 们 可 以 每 次 只 预测 一 个 字母 ，but this is greedy， 每 次 都 挑 复 好 的 那个 

e 也 可 以 每 次 多 预测 几 步 ， 然 后 挑 整体 概率 较 高 的 那个 ， 以 减少 偶然 因素 的 影响 

e 但 这 样 需要 生成 的 Sequence 会 指数 增长 

因此 我 们 在 多 预测 几 步 的 时 候 ， 只 为 概 认 比较 高 的 几 个 候选 项 做 预测 ，that's beam 


search. 


Ji 551A A 
e RNN 将 variable length sequence 问题 变 成 了 fixed length vector 问 题 ， 同 时 因为 实际 上 我 
们 能 利用 vector 进 行 预测 ， 我 们 也 可 以 将 vector 变 成 sequence 


。 我 们 可 以 利用 这 一 点 ， 输 入 一 个 序列 ， 到 一 个 RNN 里 ， 将 输出 输入 到 另 一 个 送 RNN 序 
列 , FB mh, Fy — HP FF ! ， 比 如 ， 语言 i 翻译 


e 如 果 我 们 将 CNN 的 输出 接 到 一 个 RNN， 就 可 以 做 一 种 识 图 系统 


循环 神经 网 络 实践 


循环 神经 网 络 实践 


加 载 数 据 


e 使 用 text8 作 为 训练 的 文本 数据 集 


text8 中 只 包含 27 种 字符 : 小 写 的 从 a 到 Z， 以 及 空格 符 。 如 果 把 它 打 出 来 ， 读 起 来 就 像 是 去 掉 
了 所 有 标点 的 wikipedia 。 


e 直接 调用 |lesson1 中 maybe download T Ztext8.zip 
e 用 zipfile 读 取 zip 内 容 为 字符 串 ， 并 拆 分 成 单词 list 
e 用 connections 模 块 统计 单词 数量 并 找 出 最 第 见 的 单词 


达成 随机 取 数 据 的 目标 


构造 计算 单元 


embeddings = tf.Variable( 
tf.random uniform([vocabulary size, embedding size], -1.0, 1.0)) 


e 44 i$ — vocabulary. size x embedding sizes 4E f > TE A embeddings & > 
e 有 Vocabulary _size 个 容量 为 embedding_size 的 向 量 ， 每 个 向 量 代表 一 个 vocabulary ， 
e 每 个 向 量 的 中 的 分 量 的 值 都 在 -1 到 1 之 间 随 机 分 布 


embed = tf.nn.embedding lookup(embeddings, train dataset) 


e 调用 tf.nn.embedding lookup > #4] Strain dataset z 19 € » 48 4 F train. dataset 
作为 一 个 jd， 去 检索 矩阵 中 与 这 个 id 对 应 的 embedding 


loss = tf.reduce mean( 
tf.nn.sampled softmax loss(softmax weights, softmax biases, embed, 
train labels, num sampled, vocabulary size)) 


e RET ETUR A 
optimizer = tf.train.AdagradOptimizer(i.0).minimize(loss) 


e 自 适 应 梯度 调节 器 ， 调 节 embedding 列 表 的 数据 ， 使 得 偏差 最 小 


e 预测 ， 并 用 cos 值 计算 预测 向 量 与 实际 数据 的 夹 角 作为 预测 准确 度 (相似 度 ) 指标 


传 入 数据 进行 训练 
切割 数据 用 于 训练 ， 其 中 : 


data index = (data index + 1) % len(data) 


e 依 昌 是 每 次 取 一 部 分 随机 数据 传 入 
o 等 距离 截取 一 小 段 文 本 
o 构造 训练 集 : 每 个 截取 窗口 的 中 间 位 置 作为 一 个 train_data 
o 构造 标签 : 每 个 截取 窗口 中 ， 除 了 train data 之 外 的 部 分 ， 随 机 取 几 个 成 为 一 个 list ， 
作为 label (这 里 只 随机 取 了 一 个 ) 
这 样 就 形成 了 根据 目标 词汇 预测 上 下 文 的 机 制 ， 即 Skip-gram 
e 训练 100001 次 ， 每 2000 次 输出 这 两 千 次 的 平均 损失 
e 每 10000 次 计算 相似 度 ， 并 输出 与 验证 集中 的 词 最 接近 的 词汇 列表 
e 用 tSNE 降 维 呈 现 词 汇 接近 程度 
e 用 matplotlib 绘 制 结果 
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代码 见 : word2vec.py 


这 里 我 们 指定 了 gpu 作 为 运算 设备 ， 会 出 现 这 个 issue 说 明 的 bug， 需 要 进行 如 下 配置 解决 : 


config = tf.ConfigProto(allow soft placement=True) 
session = tf.Session(graph=graph, config-config) 


CBOW 


上 面 训 练 的 是 Skip-gram 模 型 ， 是 根据 目标 词汇 预测 上 下 文 ， 而 Word2vec 还 有 一 种 方式 ， 
CBOW ， 根 据 上 下 文 预测 目标 词汇 。 


实际 上 就 是 将 Skip-gram 中 的 输入 输出 反 过 来 。 
© 修改 截取 数据 的 方式 


o 构造 标签 : 每 个 截取 窗口 的 中 间 位 置 作为 一 个 train_label 
o 构造 训练 集 : 每 个 截取 窗口 中 ， 除 了 train label 之 外 的 部 分 ， 作 为 train data (这 里 
只 随机 取 了 一 个 ) 
o 这 样 就 形成 了 根据 上 下 文 预测 目标 词汇 的 机 制 ， 即 CBOW 
e 分 别 从 embeding 里 找到 train data 里 每 个 word 对 应 的 vector， 用 tf.reduce _ sum 将 其 相 
加 ， 将 相 加 结果 与 train_label 比 较 


embed = tf.nn.embedding lookup(embeddings, train dataset) 


embed sum = tf.reduce sum(embed, 0) 


e 训练 中 依 晶 是 调节 embeding 的 参数 来 优化 loss 
e 训练 结果 如 下 图 ， 可 以 看 到 不 同 单词 的 接近 程度 
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代码 见 : cbow.py 


RNN 3$ 4) 


整体 思路 是 ， 以 一 个 文本 中 的 一 个 词 作为 train data， 后 续 的 所 有 词 作 为 train label * JA gm fie 42 
根据 一 个 给 定 词 ， 预 测 后 续 的 片段 。 


训练 数据 


e BatchGenerator 
o text: 全 部 的 文本 数据 
o text size : 全 部 文本 的 字符 串 长 度 
o batch size : 每 段 训 练 数 据 的 大 小 
o num unrollings : 要 生成 的 训练 数据 段 的 数目 
o segment : 整个 训练 数据 集 可 以 分 成 几 个 训练 数据 片段 
o cursor: 重要 ， 


m 一 开始 记录 每 个 训练 数据 片段 的 起 始 位 置 坐标 ， 即 这 个 片段 位 于 text 的 哪个 
Index 
a 执行 next_batch 生 成 一 个 训练 数据 的 时 候 ， 游 标 会 从 初始 位 置 自 增 ， 直 到 取 够 
batch size 个 数据 
o last batch : 上 一 个 训练 数据 片段 
o 每 调用 一 次 next， 生 成 一 个 num_unrollings 长 的 array， 以 last_ batch 开 头 ， 跟 着 
num_unrollings 个 batch 
o 每 个 batch 的 作为 train input， 每 个 batch 后 面 的 一 个 batch 作 为 train label， 每 个 step 
训练 num_unrolling 个 batch 


Istm-cell 


e 为 了 解决 消失 的 梯度 问题 ， 引 入 lstm-cell， 增 强 model 的 记忆 能 
e 根据 这 篇 论文 设计 lstm-cell: http://arxiv.org/pdf/1402.1128v1.pdf 
e 分 别 有 三 个 门 : 输入 门 ， 遗 总 门 ， 输 出 门 ， 构 成 一 个 cell 
o 输入 数据 是 num_nodes 个 词 ， 可 能 有 vocabulary_size 种 词 
o 输入 门 : 


input gate = sigmoid(i * ix + o * im + ib) 


o 给 输入 乘 一 个 vocabulary size num nodes X $3 4E e > 2-4 B3 3& — "num nodes 
num nodes X. 49 4E f; 

o 用 这 两 个 矩阵 调节 对 输入 数据 的 取 伟 程度 

o 用 sigmoid 这 个 非 线性 函数 进行 激活 

o it EI: 


forget gate = sigmoid(i * fx + o * fm + fb) 


思路 同 输入 门 ， 用 以 对 历史 数据 做 取 合 


o 输出 门 : 


output gate = sigmoid(i * ox + o * om + ob) 


思路 同和 输入 门 ， 用 以 对 和 输出 状态 做 取 会 
o 4S: 


update = i * cx + o * cm + cb 
state = forget gate * state + input gate * tanh(update) 
lstm cell - output gate * tanh(state) 


o 用 同样 的 方式 构造 新 状态 update 
o 用 遗忘 门 处 理 历史 状态 state 


O 


用 tanh 激 活 新 状态 update 

用 输入 门 处理 新 状态 update 

整合 新 日 状 态 ， 再 用 tanh 激 活 状 态 state 
用 输出 门 处 理 state 


O 


O 


O 


lIstm 优 化 


上 面 的 cell 中 ，update，output gate，forget gate ，input gate 计 算 方法 都 是 一 样 的 ， 可 以 把 
四 组 参数 分 别 合 并 ， 一 次 计算 ， 再 分 别 取 出 : 


values = tf.split(tf.matmul(i, input weights) + tf.matmul(o, output weights) + bias, g 
ate count, 1) 

input gate = tf.sigmoid(values[0]) 

forget gate = tf.sigmoid(values[:]) 

update = values[?] 


再 将 lstm-cell 的 输出 扔 到 一 个 WX+b 中 调整 作为 输出 


代码 见 : singlew Istm.py 


Optimizer 


e of one-hot encoding^t A label fi J| 
e KAR Liat OE ARA 
e 5| Alearning rate decay 


Flow 


e 填 入 训练 数据 到 placeholder 中 

e 验证 集 的 准确 性 用 logprob 来 计算 ， 即 对 可 能 性 取 对 数 

© 每 10 次 训练 随机 挑 取 5 个 字母 作为 起 始 词 ， 进 行 造句 测试 

e 你 可 能 注意 到 输出 的 Sentence 是 由 sample 得 到 的 词组 成 的 ， 而 非 选 择 概 兴 最 高 的 词 ， 这 
是 因为 ， 如 果 一 直 取 概 座 最 高 的 词 ， 最 后 会 一 直 重 复 这 个 概 认 最 高 的 词 


Beam Search 


上 面 的 流程 里 ， 每 次 都 是 以 一 个 字符 作为 单位 ， 可 以 使 用 多 一 点 的 字符 做 预测 ， 取 最 高 概率 
的 那个 ， 防 止 特殊 情况 导致 的 误 判 


在 这 里 我 们 增加 字符 为 2 个 ， 形 成 bigram， 代 码 见 : bigram Istm.py 


主要 通过 BigramBatchGenerator 类 实现 


Embedding look up 


8 Tbigramt$ UF * vocabulary. size È A 27*27 个 ， 使 用 one-hot encoding 做 predict 的 话 会 
PGE Ta th HOO FETE RRA THREE 


此 引入 embedding lookup, 代 码 见 embed bigram Istm.py 


数据 输入 : BatchGenerator 不 再 生成 one-hot-encoding 的 向 量 作为 输入 ， 而 是 直接 生成 
bigram 对 应 的 index 列 表 

embedding look up 调整 embedding， 使 bigram 与 vector 对 应 起 来 

将 embedding look up 的 结果 喂 给 lstm cell 即 可 

输出 时 ， 需 要 将 label 和 output 都 转 为 One-hot-encoding， 才 能 用 交 又 烂 和 softmax 计 算 损 
失 

在 tensor 里 做 data 到 one-hot-encoding 转 换 时 ， 主 要 依赖 tf.gather 疯 数 

在 对 valid 数 据 做 转换 上 时， 主要 依赖 one hot voc% X 


Drop out 


在 lstm cell 中 对 input 和 output 做 drop out 


e Refer to this article 


Seq2Seq 


最 后 一 个 问题 是 ， 将 一 个 句子 中 每 个 词 转 为 它 的 逆序 字符 串 ， 也 就 是 一 个 seq 到 seq 的 转 
换 
正经 的 实现 思路 是 ，Wword 2 vector 2 Istm 2 vector 2 word 
不 过 tensorflow 已 经 有 了 这 样 一 个 模型 来 做 这 件 事情 : Seq2SeqModel， 关 于 这 个 模型 可 
以 看 这 个 分 析 以 及 tensorflow 的 example 

只 需要 从 batch 中 ， 根 据 字符 串 逆序 的 规律 生成 target sequence， 放 到 seq2seqmodel 里 
即 可 ， 主 有 要 依赖 rev id 有 函数 
实现 见 sSeq2sedq.py 
注意 ， 用 Seq2SeqModel 的 时 候 ，size 和 num layer 会 在 学 习 到 正确 的 规律 前 就 收 贫 ， 我 
把 它 调 大 了 一 点 


def create l(sess, forward only): 

noden = = m model.Seq2SegModel(source vocab size-vocabulary size, 
target vocab size-vocabulary size, 
buckets=[(20, 21)], 
size-256, 
num layers-4, 
max gradient norm-z5.0, 
batch size-batch size, 
learning rate-zi.0, 
learning rate decay factor-z0.9, 
use lstm-irue, 
forward only-forward only) 

return model 


o source vocab size: size of the source vocabulary. 

o target vocab size: size of the target vocabulary. 

o buckets: a list of pairs (Il, O), where | specifies maximum input length that will be 
processed in that bucket, and O specifies maximum output length. Training 
instances that have inputs longer than | or outputs longer than O will be pushed to 
the next bucket and padded accordingly. We assume that the list is sorted, e.g., [(2, 
4), (8, 16]. 

o size: number of units in each layer of the model. 

o num layers: number of layers in the model. 

o max gradient norm: gradients will be clipped to maximally this norm. 

o batch size: the size of the batches used during training; the model construction is 
independent of batch size, so it can be changed after initialization if this is 
convenient, e.g., for decoding. 

o learning rate: learning rate to start with. 

o learning rate decay factor: decay learning rate by this much when needed. 

o use lstm: if true, we use LSTM cells instead of GRU cells. 

o num samples: number of samples for sampled softmax. 

o forward only: if set, we do not construct the backward pass in the model. 


参考 链接 


e 林 洲 汉 - 知 乎 

e 词 向 量 

e rudolfix - udacity deeplearn 

e Edwardbi - 5&5 Tensorflow'£ > English-Franchéi7# 4 demo 


理解 LSTM 网 络 


e Posted on August 27, 2015 


循环 神经 网 络 


人 不 会 每 时 每 刻 都 从 抓 取 信息 这 一 步 开 始 思 考 。 你 在 读 这 篇 文章 的 时 候 ， 你 对 每 个 次 的 理解 
是 基于 你 对 以 前 的 词汇 的 理解 的 。 你 不 会 把 所 有 东西 都 释放 出 来 然后 再 从 抓 取信 息 开 始 重新 
思考 ， 你 的 思维 是 有 持续 性 的 。 


传统 的 神经 网 络 不 能 做 到 这 一 点 ， 而 且 好 像 这 是 传统 神经 网 络 的 一 个 主要 缺点 。 例 如 ， 想 象 
你 想 要 区 分 一 个 电影 里 的 每 个 时 刻 正在 发 生 的 事情 。 一 个 传统 的 神经 网 络 将 会 如 何 利用 它 对 
电影 中 事件 的 推理 ， 来 预测 后 续 的 事件 ， 这 个 过 程 是 不 清晰 的 。 


循环 神经 网 络 解决 了 这 个 问题 。 在 循环 神经 网 络 里 ， 有 循环 ， 人 允许 信息 持续 产生 作用 。 
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在 上 面 的 图 中 ， 一 大 块 神 经 网 络 ，A， 观 紧 一 些 输入 xt， 和 输出 一 个 值 ht。 循 环 允 许 信 息 从 网 络 
的 一 步 传 到 下 一 步 。 


这 些 循环 使 得 循环 神经 网 络 似乎 有 点 神秘 。 然 而 ， 如 果 你 想 多 一 点 ， 其 实 它们 跟 一 个 正常 的 
神经 网 络 没有 神秘 区 别 * 一 个 循环 神经 网 络 可 以 被 认为 是 同一 个 网 络 的 多 宣 副 本 ， ， 每 个 部 分 
会 向 继任 者 传递 一 个 信息 。 想 一 想 ， 如 果 我 们 展开 了 循环 会 发 生 什么 


w O 中 
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这 个 链 式 本 质 揭 示 了 ， 循 环 神经 网 络 跟 厚 列 和 列表 是 紧 均 相关 的 。 它 们 是 神经 网 络 为 这 类 数 
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并 且 它 们 各 的 起 了 作用 ! 在 过 去 的 几 年 里 ， 应 用 RNN 到 许多 问题 中 都 取得 了 难以 置信 的 成 
功 : 语音 识别 , 语言 建 模 , 翻译 , E] 4 3 AL , 等 等 5 我 会 留 一 个 话题 ' jT] 4e 7] Andrej 
Karpathy 的 博客 能 够 取得 多 么 令 人 惊艳 的 成 绩 : 


The Unreasonable Effectiveness of Recurrent Neural Networks ° 142 41:& 89 78 3$ 1746 © 


与 这 些 成 功 紧 蜜 相 关 的 是 对 LSTM 的 使 用 ， 一 个 非常 特殊 的 循环 神经 网 络 的 类 型 。 它 在 许多 任 
务 上 都 能 比 标准 的 RNN 工 作 的 好 得 多 。 几 乎 所 有 基于 RNN 的 神经 网 络 取得 的 激动 人 心 的 成 果 
都 由 LSTM 获 得 。 这 篇 文章 将 要 探索 的 就 是 这 些 LSTM © 
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RNN 吸 引 人 的 一 个 地 方 是 它们 能 够 链接 先前 的 信息 与 当前 的 任务 ， 比 如 使 用 先前 的 视频 帧 可 
能 预测 对 于 当前 帧 的 理解 。 如 果 RNN 能 够 做 到 这 种 事情 ， 它 们 会 变 得 极度 有 用 。 但 莫 的 可 以 
吗 ? 不 好 说 。 


有 时 候 ， 我 们 只 需要 查看 最 近 的 信息 来 执行 现在 的 任务 ， 例 如 ， 考 虑 一 个 语言 模型 试图 基于 
先前 的 词 预 测 下 一 个 词 。 如 果 我 们 要 预测 “the clouds are in the sky" > RAMT X X X 4e $ 3E de 
的 上 下 文 一 一 非常 明显 ， 下 一 个 词 就 应 该 是 sky。 在 这 样 的 例子 中 ， 相 关 信 息 和 目的 地 之 间 
的 距离 是 很 小 的 。RNN 可 以 学 着 区 使 用 过 去 的 信息 。 





但 也 有 一 些 情况 是 我 们 需要 更 多 上 下 文 的 。 考 虑 预测 这 个 句子 中 最 后 一 个 词 : “| grew up in 
France... | speak fluent French.” 最 近 的 信息 表明 下 一 个 词 可 能 是 一 种 语言 的 名 字 ， 但 如 果 我 
们 想 要 找 出 是 哪 种 语言 ， 我 们 需要 从 更 久远 的 地 方 获取 France 的 上 下 文 。 相 关 信 息 和 目标 之 
间 的 距离 完全 可 能 是 非常 巨大 的 。 


不 幸 的 是 ， 随 着 距离 的 增 大 ，RNN 变 得 不 能 够 连接 信息 。 
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理论 上 ，RNN 是 绝对 能 够 处 理 这 样 的 “长 期 依赖 的 ”%。 人 类 可 以 仔细 地 从 这 些 词 中 找到 参数 然后 
解决 这 种 形式 的 一 些 维 形 问题 。 然 而 ， 实 践 中 ， —— E0525 2] 8| ix o Hochreiter 


(1991) [German] 和 Bengio, et al. 1994 年 曾 探 索 过 这 个 问题 ， 他 们 发 现 了 一 些 非常 根本 的 导 
臻 RNN 难 以 生效 的 原因 。 


长 期 依赖 导致 的 神经 网 络 困境 


万 全 的 是 ，LSTM 没 有 这 个 问题 | 


LSTM 网 络 


长 短期 记忆 网 络 - 通常 简称 为 LSTMS"”， 有 是 一 种 特殊 的 RNN， 适 用 于 学 习 长 期 依赖 。 他们 由 
Hochreiter 和 Schmidhuber (1997) 介绍 引入 ， 由 许多 其 他 的 人 们 在 后 续 的 工作 中 重新 定义 
和 丰富 。 他 们 在 各 种 各 样 的 问题 中 都 工作 的 特别 好 ， 并 且 现 在 已 经 被 广泛 使 用 。 


LSTMs 是 为 了 避免 长 期 依赖 问题 而 特殊 设计 的 。 为 长 期 时 间 记 忆 信 息 实 际 上 是 他 们 默认 的 行 
为 ， 而 非 他 们 需要 学 习 的 东西 1! 


所 有 RNN 都 有 重复 神经 网 络 模型 的 链 式 形式 。 在 标准 的 RNN 中 ， 这 种 重复 模型 会 有 一 种 非 第 


简单 的 结构 ， 比 如 简单 的 tanh 层 。 
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The repeating module in a standard RNN contains a single layer. 


LSTM 也 有 这 种 链 式 结构 ， 但 重复 单元 有 着 一 种 不 同 的 结构 。 里 面 不 再 是 只 有 单一 的 神经 网 络 
层 ， 里 面 有 四 个 ， 以 非常 简单 的 方式 起 作用 。 
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The repeating module in an LSTM contains four interacting layers. 





不 要 担心 内 部 的 细节 。 我 们 稍 后 会 一 步 一 步 遍历 LSTM 图 。 现 在 ， 我 们 要 熟悉 我 们 将 要 使 用 的 
TL: 
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Neural Network Pointwise Vector 


! C tenat C 
Layer Operation Transfer ucc di 
在 上 面 的 图 中 ， 每 行 都 有 一 个 箭头 ， 从 一 个 结 点 的 输出 到 另外 的 结 点 的 输入 。 粉 色 的 圆 代 表 
结 点 操作 ， 比 如 向 量 相 加 ， 而 黄色 的 长 方形 是 学 习 的 神经 网 络 层 。 线 的 合并 代表 denote 的 链 


接 ， 而 前 头 的 分 又 代表 内 容 复 制 后 流向 不 同 的 位 置 。 


LSTM 背 后 的 核心 思想 


LSTM 的 关键 在 于 cell 的 状态 ， 也 就 是 图 中 贯穿 顶部 的 那 条 水 平 线 。 


cell 的 状态 像 是 一 条 传送 带 ， 它 贯穿 整 条 链 ， 其 中 只 发 生 一 些小 的 线性 作用 。 信 息 流 过 这 条 线 
而 不 改变 是 非常 容易 的 。 


LSTM 确 实 有 能 力 移 除 或 增加 信息 到 cell 状 态 中 ， 由 被 称 为 门 的 结构 精细 控制 。 


门 是 一 种 让 信息 可 选 地 通过 的 方法 。 它 们 由 一 个 sigmoid 神 经 网 络 层 和 一 个 点 乘 操 作 组 成 。 





€— 层 输出 [0, 1] 区 间 内 的 数 ， dinh 中 应 该 通过 的 比例 。 输 出 0 意味 着 “什么 都 不 
能 通过 ”， 而 输出 1 意味 着 “让 所 有 东西 通过 1” 


一 个 LSTM 有 四 个 这 样 的 门 ， 以 保护 和 控制 cell 的 状态 。 


深入 浅 出 LSTM 


我 们 的 LSTM 的 第 一 步 是 决定 我 们 需要 从 cell 状 态 中 扔 掉 什么 样 的 信息 。 这 个 决策 由 一 个 称 
Ait ET)” A sigmoid A Bk Hk e ome 1 和 Xt， 位 cell 状 态 Ct-1 中 每 个 humber 输 出 一 个 0 和 1 之 
间 的 数 。1 代 表 “ 完 全 保留 这 个 值 '， 而 0 代表 “完全 扔 挥 这 个 值 ”。 


让 我 们 回 到 我 们 那个 基于 上 文 预测 最 后 一 个 词 的 语言 模型 。 在 这 样 一 个 问题 中 ，cel| 的 状态 可 
能 包含 当前 主题 的 种 类 ， 这 样 才 能 使 用 正确 的 名 词 。 当 我 们 看 到 一 个 新 的 主题 的 时 候 ， 我 们 
SRE Bit mx ay X R$ 3X 


Ji fe =o (Wp [hi-1, xt] + bf) 


Tt 


下 一 步 是 决定 我 们 需要 在 cell state 里 存储 什么 样 的 信息 。 这 个 问题 有 两 个 部 分 。 第 一 ， 一 个 
sigmoid 层 调用 “输入 门 ” 以 决定 哪些 数据 是 需要 更 新 的 。 然 后 ， 一 个 tanh 层 为 新 的 候选 值 创建 
一 个 向 量 C t， 这 些 值 能 够 加 入 state 中 。 下 一 步 ， 我们 要 将 这 两 个 部 分 合并 以 创建 对 state 的 更 
新 。 


在 我 们 的 语言 模型 的 例子 中 ， 我 们 想 要 把 主题 的 种 类 加 入 到 cell state ? > ALFRANBRWE 
的 昌 的 种 类 。 


i = o (Wi-u-iczi + bi) 
C, = tanh(We-[hi i24] + bc) 





现在 是 时 候 更 新 日 的 cell stateCt 4 £131 53 cell stateCt。 前 一 步 已 经 决定 了 我 们 需要 做 的 事情 
我 们 只 需要 实现 它 。 


我 们 把 旧 的 state 与 ff 相 乘 ， 遗 忘我 们 先前 决定 遗忘 的 东西 ， 然 后 我 们 加 上 it* C qo REMOR 
选 值 ， 受 我 们 对 每 个 状态 值 的 更 新 度 约束 而 缩放 。 


在 语言 模型 的 例子 中 ， 这 就 是 我 们 真正 扔 掉 旧 主题 种 类 ， 并 增加 新 的 信息 的 地 方 ， 正 如 我 们 
之 前 所 决定 的 。 


| ire C, — s 米 Ct] 十 04 ^K C, 


最 后 ， 我 们 需要 决定 要 输出 的 东西 。 这 个 输出 基于 我 们 的 cell state， 但 会 是 一 个 过 滤 版 本 。 
首先 ， 我 们 运行 一 个 sigmoid 层 ， 以 决定 cell state 中 的 那个 部 分 是 我 们 将 要 输出 的 。 然 后 我 们 
把 cell state 放 进 tanh (将 数值 压 到 -1 和 1 之 间 ) > RE E sigmoid] igin KAR > RFR 
就 只 输出 了 我 们 想 要 的 部 分 了 


OF = a (W, hau £l T b.) 


hy = or * tanh (Cj) 


œ 





语言 模型 的 例子 中 ， 由 于 它 仅 关注 一 个 主题 ， 它 可 能 会 输出 与 一 个 动词 相关 的 信息 ， 以 防 后 
面 还 有 其 他 的 词 。 比 如 ， 它 可 能 输出 这 个 主题 是 单数 还 是 复数 ， 让 我 们 知道 如 果 后 面 还 有 东 
西 ， 动 词 才 会 对 应 出 现 。 


OF = o (Wo LEE T bo) 


hi = or * tanh (Ci) 


c 





LSTM Zt 
到 目前 为 止 我 所 描述 的 是 一 种 非常 普通 的 LSTM， 但 不 是 所 有 的 LSTM 都 和 上 面 描述 的 这 种 一 
样 。 事 实 上 ， 几 乎 所 有 涉及 LSTM 的 文章 用 的 版 本 都 稍 有 不 同 ， 差 别 微小 ， 但 值得 一 谈 。 


一 种 由 Gers & Schmidhuber (2000) 介 绍 的 广 受 欢迎 的 LSTM 变 种 ， 添 加 了 " 门 镜 连 接 ”。 这 意味 
着 我 们 可 以 让 门 观 察 cell 状 态 。 


大 三 0 (Wr [Ct-1, ht-1, Vt, + br) 
ij = o (Wi (Ct-1,ht—1, £t] + bi) 
— ot = o (Wo:[Cz, hi 4, £t] + bo) 


上 面 的 图 为 每 个 门 都 添加 了 门 镜 , 但 许多 文章 只 会 给 一 部 分 门 镜 ` 


Fy — AP RFP NK S SEES ADT]o RANT KAD AA A Fe 0) AR > RA E) t 
RRR Ro RTA AAR ITE BL AS] RD UE SJ] RB? ANMARRREAR VS AS SER dT 
入 新 的 数据 。 


Lo O= fi Cea 4 (0 - f)«C, 


一 个 稍微 更 奇特 的 变种 是 循环 门 单 元 (Gated Recurrent Unit >» GRU) ， 由 Cho, et al. (2014) 
提出 。 它 组 合 了 遗忘 门 和 输入 门 到 一 个 单独 的 “更 新 门 * 中 。 它 也 合并 了 cell state 和 hidden 
state， 并 且 做 了 一 些 其 他 的 改变 。 结 果 模 型 比 标准 LSTM 模 型 更 简单 ， 并 且 正 越 来 越 受 欢迎 。 


et =g (W, Hu as £l) 
=o (W, l Hua as £l) 


hi = tanh (W - [ri * h4 4, £l) 


hi = (1— z4) * he1 + ze * hi 





A gated recurrent unit neural network. 


这 些 只 是 一 些 最 值得 一 提 的 LSTM 变 种 。 还 有 许多 其 他 种 类 ， 像 Yao, et al. (2015) 提 出 的 Depth 
Gate RNN。 也 有 许多 复杂 的 不 同方 法 来 处 理 长 期 依赖 ， 像 Koutnik, et al. (2014) 提 出 的 
Clockwork RNN ? 


哪 种 变种 是 最 好 的 ?这 些 区 别 重要 吗 ? Greff, et al. (2015) 对 流行 的 变种 做 了 一 个 很 好 的 比 
较 ， 发 现 它们 都 是 一 样 的 。Jozefowicz, et al. (2015) 测 试 了 超过 一 万 中 RNN 结 构 ， 发 现 东 些 
任务 情形 下 ， 有 些 比 LSTM 工 作 得 更 好 。 


结论 


首先 ， 我 讲述 了 人 们 用 RNN 获 得 的 巨大 成 果 。 而 这 些 成 果 都 用 到 了 LSTM， 它 们 在 大 多 数 任务 
中 都 工作 得 好 得 多 ! 


列 出 方程 的 话 ，LSTM 看 起 来 很 吓人 。 幸 好 ， 在 这 篇 文章 里 一 步 步 看 下 来 让 它们 变 得 相对 可 以 
接受 了 些 。 


LSTM 是 我 们 在 RNN 上 取得 的 一 大 步 。 我 们 自然 会 想 : 还 有 另 一 个 突破 口 吗 ? 研究 人 员 中 的 一 
个 通 第 的 观点 是 “有 | 是 注意 力 1 ”思路 是 让 一 个 RNN 收 集 信 息 的 每 一 步 都 关注 更 大 的 一 个 信 

息 。 例 如 ， 如 果 你 用 一 个 RNN 抽 取 图 片 信息 来 描述 它 ，RNN 可 能 可 以 为 每 个 输出 的 词 都 从 图 

片 拿 一 部 分 进行 分 析 。 事 实 上 ，Xu, et al. (2015) 就 是 这 样 做 的 - 这 可 能 是 一 个 有 趣 的 出 发 

点 ， 如 果 你 想 要 探索 注意 力 这 个 话题 的 话 。 已 经 有 许多 令 人 惊艳 的 成 果 了 ， 并 且 人 似乎 还 有 更 

多 不 为 人 知 的 研究 。 


注意 力 不 是 RNN 研 究 中 唯一 刺激 的 线 。 例 如 ， 网 格 LSTM (Kalchbrenner, et al. (2015)) ,生产 
模型 中 使 用 RNN ( Gregor, et al. (2015), Chung, et al. (2015), or Bayer & Osendorfer 
(2015)) ， 都 很 有 趣 。 最 近 几 年 是 RNN 的 黄金 时 代 ， 下 一 年 更 是 如 此 。 


致谢 
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觉得 我 的 文章 对 您 有 帮助 的 话 ， 就 给 个 star 吧 一- 
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做 信 扫 一 扫 转 账 





TensorFlow < X I E & 


Install TensorFlow 


安装 教程 就 在 TensorFlow 的 官网 上 >>> 点 击 查看 
按照 官方 的 流程 装 就 好 了 ， 这 里 讲 一 下 几 种 方式 的 特点 : 
1. pip: 安装 在 全 局 的 python 解 释 踊 中， 简单 
2. Third party: Virtualenv Anaconda and Docker : 都 能 创建 tensorflow 独 立 的 编译 环境 ， 但 
就 是 多 了 一 份 包 


3. Source: 能 够 适应 不 同 的 python 版 本 (上 比如 编译 一 个 3.5 版 的 ) ， 但 源码 编译 可 能 有 许多 


`~ 
— 


Xu 


4. ubuntu 安装 时 ， 需 要 注意 自己 的 python - pip - tensorflow 版 本 是 否 对 应 〈 比 如 是 否 都 是 
2.7) ， 


5. 使 用 sudo 命 令 时 ， 注 意 自己 的 环境 变量 是 否 变 化 (会 导致 pip 或 python 命 令 对 应 的 版 本 变 
化 ) 
6， 上 有 具体 讲 一 下 ubuntu 安 装 tensorflow 流 程 : 


nod 


o Ax anaconda2 
o 确定 自己 终端 的 pip 和 python 版 本 : 


$ pip -V && python -V 


确认 使 用 的 是 否 都 来 自 anaconda， 如 果 不 是 ， 则 应 该 使 用 类 似 这 样 的 命令 运行 对 应 
的 pip : 


$ /home/cwh/.conda/envs/tensorflow/bin/pip -V 
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使 用 sudo 命令 时 最 好 也 看 一 下 版 本 


o 使 用 anaconda 创 建 一 个 tensorflow 虚 拟 环境 : 


$ conda create -n tensorflow python=2.7 


o 切换 到 tensorflow 环 境 下 《实际 上 瑟 更 换 了 环境 变量 里 的 pip 和 python ) ， 下 载 安 装 
tensorflow > 3; X-sudo/x IR 


$ source activate tensorflow 

(tensorflow)$ sudo pip install --ignore-installed --upgrade https://storage.g 
oogleapis.com/tensorflow/linux/cpu/tensorflow-0.8.0rcO-cp27-none-linux x86 64 
„whl 

$ source deactivate 


注意 如 果 安 装 的 是 gpu 版 本 ， 还 需要 按照 官网 说 明 安 装 cuda 和 cudaCNN， 具 体 教程 
看 这 个 视频 ， 不 能 科学 上 网 的 访问 这 个 地 址 ， 注 意 一 下 你 的 显卡 算 

o 如 果 pip 安 装 速度 慢 ， 不 要 换 pip 源 ， 复 制 whl 名 字 ， 去 谷歌 一 搜 ， 找 到 对 应 的 whl 下 下 
来 ， 然 后 pip install xxx.whl， 整 个 过 程 比 全 pip 安 装 要 快 得 多 

o 如 果 setuptools 安 装 失 败 ， 报 "Cannotremove entries from nonexistentfile”， 就 要 用 


$ pip install --ignore-install setuptools 


d 
o 安装 成 功 后 就 可 以 在 tensorflow 的 python 环 境 下 ， 执 行 import tensorflow Æ T ° 
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官方 教程 : https://www.tensorflow.org/versions/master/how_tos/graph_viz/index.html 


TensorFlow 目 带 的 一 个 强大 的 可 视 化 工具 


人 已 
功能 
这 是 TensorFlow 在 MNIST 实 验 数 据 上 得 到 Tensorboard 结 果 


e Event: 展示 训练 过 程 中 的 统计 数据 (最 值 ， 均值 等 ) 变化 情况 
e |mage: 展示 训练 过 程 中 记录 的 图 像 

e Audio: 展示 训练 过 程 中 记录 的 音频 

e Histogram: 展示 训练 过 程 中 记录 的 数据 的 分 布 图 


原理 


e 在 运行 过 程 中 ， 记 录 结 构 化 的 数据 
e 运行 一 个 本 地 服务 器 ， 监 听 6006 端 口 
e 请 求 时 ， 分 析 记 录 的 数据 ， 绘 制 


实现 
在 构建 graph 的 过 程 中 ， 记 录 你 想 要 追踪 的 Tensor 


with tf.name scope('output act'): 
hidden = tf.nn.relu6(tf.matmul(reshape, output weights[9]) + output biases) 
tf.summary.histogram( output act', hidden) 


其 中 ， 


IN 


e summary.histogram 用 于 生成 分 布 图 ， 也 可 以 用 scalar summary 3? sk Ë ži 

e 使 用 scalar summary 的 时 候 ，tag 和 tensor 的 Shape 有 要 一 臻 

e name scope 可 以 不 写 ， 但 是 当 你 需要 在 Graph 中 体现 tensor 之 间 的 包含 关系 时 ， 就 要 写 
了 ， 像 下 面 这 样 


with tf.name scope('input cnn filter'): 
with tf.name scope('input weight'): 
input weights - tf.Variable(tf.truncated normal( 
[patch size, patch size, num channels, depth], stddev=0.1), name-' input we 
LANE) 
variable_summary(input_weights) 
with tf.name_scope('input_biases'): 
input biases = tf.Variable(tf.zeros([depth]), name='input_biases' ) 
variable summary(input weights) 


e 在 Graph 中 会 体现 为 一 个 input_cnn_filter， 可 以 点 开 ， 里 面 有 weight 和 biases 

e 用 Summary 系 列 函 数 记 录 后 ，Tensorboard 会 根据 graph 中 的 依赖 关系 在 Graph 标签 中 展 
示 对 应 的 图 结构 

e 官网 封装 了 一 个 函数 ， 可 以 调用 来 记录 很 多 跟 某 个 Tensor 相 关 的 数据 : 


def variable summary(var): 

"I'"Attach a lot of summaries to a Tensor (for TensorBoard visualization). """ 

with tf.name_scope('summaries'): 
mean = tf.reduce_mean(var) 
tf.summary.scalar('mean', mean) 
with tf.name_scope('stddev'): 

stddev = tf.sqrt(tf.reduce_mean(tf.square(var - mean))) 

tf.summary.scalar('stddev', stddev) 
tf.summary.scalar('max', tf.reduce_max(var)) 
tf.summary.scalar('min', tf.reduce_min(var)) 
tf.summary.histogram('histogram', var) 


e 只 a ns 
e Graph 的 取 后 要 写 一 名 这 个 ， 给 session 回 调 


merged = tf.summary.merge all() 


Session 中 调用 
e 构造 两 个 Writer， 分 别 在 train 和 valid 的 时 候 写 数据 : 


train writer = tf.summary.FileWwriter(summary dir + '/train', 
session.graph) 
valid writer = tf.summary.Filewriter(summary dir + '/valid') 


e 这 里 的 Summary _ dir 存放 了 运行 过 程 中 记录 的 数据 ， 等 下 局 动 服 务 器 要 用 到 
e 构造 run_option 和 run_meta， 在 每 个 step 运 行 session 时 进行 设置 : 


summary, _, l, predictions = 
session.run([merged, optimizer, loss, train prediction], options-run options, feed 
 dict-feed dict) 


e 注意 要 把 merged 拿 回来 ， 并 且 设 置 options 
e 在 每 次 训练 时 ， 记 一 次 : 


train writer.add summary(summary, step) 


e 在 每 次 验证 时 ， 记 一 次 : 


valid writer.add summary(summary, step) 


e 达到 一 定 训 练 次 数 后 ， 记 一 次 meta 做 一 下 标记 


train writer.add run metadata(run metadata, 'step?603d' 96 step) 


查看 可 视 化 结果 
e 启动 TensorBoard 服 务 器 : 


python 人 安装 路 径 /python TensorFlow 人 安装 路 径 /tensorflow/tensorboard/tensorboard.py --logdir=p 
ath/to/log-directory 


注意 这 个 python 必 须 是 安装 了 TensorFlow 的 python，tensorboard.py 必 须 制 定 路 径 才 能 被 
dy logdir 必 须 是 前 面 创建 两 个 writer 时 使 用 的 路 径 


比如 我 的 是 : 


/home/cwh/anaconda2/envs/tensorflow/bin/python /home/cwh/anaconda2/envs/tensorflow/lib 
/python2.7/site-packages/tensorflow/tensorboard/tensorboard.py --logdir--/coding/pytho 
n/GDLnotes/src/convnet/summary 


如 果 默 认 python 解 释 民 就 是 包含 tensorflow 的 python 解 释 器 ， 可 以 直接 输入 


tensorboard --logdir-path/to/log/dir 


1& FR] python 


© 然后 在 浏览 到 输入 htto://127.0.0.1:6006 就 可 以 访问 到 tensorboard 的 结果 
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e 之 前 我 的 cnn 代 码 里 有 valid_prediction， 所 以 画 出 来 的 graph 有 两 条 分 支 ， 不 太 清 晰 ， 所 
以 只 留 了 train 一 个 分 支 


WE PAY: 
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你 的 Summary 代 码 决 定 


an ble 
b m gradients Adagrad 


Variable s summaries 


gradien ents 


你 的 图 结构 


e 不 是 所 有 的 tensor 都 有 必要 记录 ， ent dn mid 


下 ， 也 是 为 了 好 看 
e 由 于 有 了 gradient 的 计算 
optimizer 


我 的 CNN TensorBoard 代 码 : cnn_board.py 


e mnist with summaries.p 


' 所 以 与 gradient 计 算 相 


关 的 都 会 被 捡 出来， 下 次 试 一 下 用 其 他 
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skflow 


sklearn 风 格 的 api， 用 tensorflow 来 处 理 训 练 sklearn 的 数据 集 ， 现 在 已 经 合并 到 tf.contrib 里 。 


import skflow 
from sklearn import datasets, metrics 


iris = datasets.load iris() 

Classifier = skflow.TensorFlowDNNClassifier(hidden units-[310, 20, 10], n_classes=3) 
classifier.fit(iris.data, iris.target) 

score - metrics.accuracy score(iris.target, classifier.predict(iris.data)) 
print("Accuracy: %f" % score) 


分 布 式 TensorFlow 


code : distrib.py 


e 然后 在 不 同 的 机 器 上 司 动 之 : 


# On psO.example.com: 

$ python trainer.py \ 
--ps hosts-ps0O.example.com:2222,psi1.example.com:2222 \ 
--worker hosts-workerO.example.com:2222,workeri.example.com:2222 \ 
--job name-ps --task_index=0 

4 On psi.example.com: 

$ python trainer.py \ 
--ps hosts=ps0.example.com:2222,psi.example.com:2222 \ 
--worker hosts-workerO.example.com:2222,workeri.example.com:2222 \ 
--job name-ps --task index-1 

4 On workerO.example.com: 

$ python trainer.py \ 
--ps hosts-ps0O.example.com:2222,psi1.example.com:2222 \ 
--worker hosts-workerO.example.com:2222,workeri.example.com:2222 \ 
--job_name=worker --task_index=0 

# On workeri.example.com: 

$ python trainer.py \ 
--ps hosts-psO.example.com:2222,psi1.example.com:2222 \ 
--worker hosts-workerO.example.com:2222,workeri.example.com:2222 \ 
--job_name=worker --task index-1 


